ISO-8859-15 on haitallinen

English summary: ISO-8859-15 considered harmful. Introducing new 8-bit encodings is a bad idea. Using UTF-8 is the way to go.

ISO-8859-15 lisättiin ISO-8859-perheeseen vuonna 1999. Uuden merkkivalikoiman ja koodauksen oli tarkoitus korjata muutama ISO-8859-1:n puute eli vaihtaa tarpeettomina pidettyjen merkkien tilalle euro ja Ranskan sekä Suomen edustajien lemmikkimerkit. Lemmikkimerkit ovat kieli-ihmisten valitsemia eikä siten esim. ISO-8859-1:n typografisia puutteita (ajatusviivat ja lainausmerkit) korjattu.

Vuonna 1999 oli jo 8-bittinen koodaus, jossa on sekä kieli-ihmisten että typograafikoiden lemmikkimerkit: Windows-1252. Syyt kyseisen koodauksen välttämiseen eivät ole käytännöllisiä vaan periaatteellisia (speksi tulee Microsoftilta) ja teoreettisia (jokin muinaispääte saattaa jättää eniten merkitsevän bitin huomiotta ja käsitellä tulostuvaa merkkiä kontrollimerkkinä).

ISO-8859-1 on tulostuvien merkkien osalta tavuittain eteenpäin yhteensopiva Windows-1252:n kanssa. ISO-8859-1 on koodinumeroittain eteenpäin yhteensopiva Unicoden kanssa. ISO-8859-15 ei ole vastaavasti yhteensopiva.

Vuonna 1999 oli myös olemassa Unicode ja sen tavuesitys UTF-8. Itse asiassa ISO-8859-15 on määritelty Unicoden suhteen!

Uusien 8-bittisten koodausten lisääminen ja lemmikkimerkkien kanssa näprääminen ei ole kestävän kehityksen kannalta järkevä ratkaisu. Siksi onkin harmillista, että Kotuksen kolumnipaikalla Helsingin Sanomissa on vaadittu tukea ISO-8859-15:lla sen sijaan, että olisi vaadittu UTF-8-tukea.

Jos Suomen valtiolla on tietokantoja, joiden muinaiskoodi pakottaa viralliset nimet yms. 8-bittiseen koodaukseen, olkoon sitten niin. On kuitenkin vahingollista nakertaa UTF-8:n käyttöönottoa tuomalla uusia 8-bittisiä koodauksia julkiseen verkkoon silloin, kun 8-bittisten koodausten pitäisi olla jo matkalla historian romukoppaan.

Kun Windowsilla ollaan siirtymässä Windows-1252:sta Unicodeen ja Mac OS X:llä MacRomanista Unicodeen, Linux-puolella hukattiin yksi mahdollisuus ja siirryttiin ISO-8859-1:stä ISO-8859-15:een eikä suoraan UTF-8:aan.

ISO-8859-15 ei ratkaise ongelmaa. UTF-8 ratkaisee. ISO-8859-15 kasvattaa ongelmaa (koodausten määrää).