Henri Sivonen, korkeakouluharjoittelija, Kansallisarkisto
Henri Sivonen on laatinut tämän dokumentin Kansallisarkistossa kesällä 2002. Dokumentti sisältää Sivosen Kansallisarkistolle esittämän näkemyksen. Dokumentti ei välttämättä edusta Kansallisarkiston kantaa (eikä välttämättä edes Sivosen nykyistä kantaa).
Tekstinkäsittelyohjelmilla ja muilla toimisto-ohjelmilla tuotettujen dokumenttien arkistointi on hyvin keskeinen digitaalisen pitkäaikaissäilytyksen ongelma. Tästä huolimatta en ole ehdottanut minkään tekstinkäsittelyohjelman formaattia arkistoformaatiksi. Ehdottamatta jättäminen kaivannee hieman perusteluja. Käyn tässä läpi lyhyesti tekstinkäsittely- ja toimisto-ohjelmien omien formaattien arkistokäyttöön liittyviä ongelmia.
Microsoft Officen tiedostoformaatit (Word, Excel, PowerPoint) ovat erittäin laajalti käytettyjä. Ne eivät kuitenkaan sovi arkistokäyttöön, koska formaattimääritykset eivät ole julkisia. Lisäksi Microsoft saattaa muutta formaatteja milloin tahansa, joten ei ole taattua, että Microsoftin omat tuotteetkaan olisivat tulevaisuudessa takaperin yhteensopivia vanhojen Office-versioiden kanssa. Formaattien OLE-riippuvuudet vaikeuttavat formaattien lukua itsenäisesti kirjoitetuilla ohjelmilla.
WordPerfectin tiedostoformaatti on nykyään suhteellisen harvinainen. Se on kuitenkin ainakin version 7.0 osalta enimmäkseen dokumentoitu siten, että dokumentaatio on Webissä [WP]. Formaatti on pitkän ajan kuluessa inkrementaalisesti kehitetty binääriformaatti. Sen lukeminen on olennaisesti vaikeampaa kuin vaikkapa XML-pohjaisten dokumenttien lukeminen. WP 7 lisäsi mahdollisuuden OLE-kääreen käyttöön, joten joidenkin WP-dokumenttien luku saattaa vielä edellyttää OLE-kääreestä selviytymistä.
AppleWorksin tiedostoformaatti ei ole nykyisin käytössä juuri muualla kuin Mac-alustalla ja sielläkin monet käyttävät muita formaatteja. Formaatista ei luultavasti ole saatavana julkista dokumentaatiota. Formaatti ei siis sovi arkistoon.
RTF on tarkoitettu dokumenttien välittämiseen tekstinkäsittelyohjelmasta toiseen. RTF:stä on olemassa monta versiota, joista ainakin version 1.6 määritys [RTF1.6] on saatavilla Microsoftilta. Määrityksen saatavuudesta huolimatta eri ohjelmilla, jotka väittävät lukevansa tai kirjoittavansa RTF-dokumentteja, on yhteensopivuusongelmia.
RTF ei sovi arkistoformaatiksi epämääräisten yhteensopivuusongelmien vuoksi. Lisäksi rakenteiset formaatit tai OpenOfficen XML-formaatti sopivat paremmin tekstiin liitettyjen rakenteiden ilmaisuun. Jos taas halutaan säilyttää dokumentin tulostusulkonäkö, PDF on parempi valinta kuin RTF.
Sun on määritellyt OpenOfficelle uudet XML-pohjaiset formaatit vanhojen OLE-pohjaisten formaattien tilalle.[OO-XML] Uusien formaattien olisi ainakin teoriassa tarkoitus olla yleispäteviä toimistoformaatteja eikä vain tiettyjen ohjelmien sisäisten tietorakenteiden sarjallistuksia. Ainakin tekstinkäsittelyformaatti näyttää siltä, että se kelpaisi yleisesti Wordiä muistuttaville tekstinkäsittelyohjelmille. OpenOffice-kytkökset ovat kuitenkin havaittavissa.
Tekstinkäsittelyformaatti pyrkii perinteisestä tekstinkäsittelystä rakenteisempaan suuntaan, mutta OpenOfficen käyttöliittymä sallii silti WYSIWYG-suoratyylityksen. XML-pohjaisuudestaan huolimatta OpenOfficen formaatit eivät siis ole DocBookin kaltaisia täysin oikeita rakenteellia formaatteja.
Itse asiassa asetelma, jossa tiedostoon yritetään tallentaa jotain eri asiaa kuin mihin annetaan käyttöliittymä, on aina epäilyttävä. Jos käyttöliitymä ei ohjaa käyttäjää ilmaisemaan dokumentin loogista rakennetta, ei ole kovin uskottavaa, että todellinen looginen rakenne voisi tallentua tiedostoon.
Joka tapauksessa XML-pohjaisista toimistoformaateista OpenOfficen formaatit vaikuttavat parhaiten yleispäteviksi suunnitelluilta. Teoreettisesta yleispätevyydestä ei tosin ole kovin paljon apua, jos tulevaisuudessakin näitä formaatteja käyttää vain OpenOffice itse.
Ainakin OpenOfficen tekstinkäsittelyformaatissa on potentiaalia arkistoformaatiksi sellaisiin tilanteisiin, joissa dokumentti on luotu tekstinkäsittelymenetelmillä eikä siitä voida konvertoida laadukkaasti todelliseen rakenteiseen muotoon. Formaattia ei kuitenkaan kannata hyväksyä arkistoformaatiksi, jos ainoa formaattia kirjoittava ohjelma on OpenWriter eikä sitä juurikaan käytetä valtionhallinnossa. Jos/kun valtionhallinnossa oikeasti ruvetaan käyttämään OpenWriterin formaattia kirjoittavia ohjelmia, asiaan kannattaa palata. (Toki olisi toivottampaa, että sen sijaan siirryttäisiin oikeita rakenteisia dokumentteja tuottaviin ohjelmiin.)
KOfficen natiiviformaatit ovat XML-pohjaisia. XML-tiedostot ovat ensisijaisesti ohjelmien sisäisten tietorakenteiden sarjallistuksia (tiedostoon tallennettuja muotoja) eivätkä yleispäteviä rakenteisia formaatteja. Formaatit oletettavasti muuttuvat uusien ohjelmaversioiden myötä.
Ohjelmasidonnaisuuden ja harvinaisuuden vuoksi KOfficen formaatteja ei kannata hyväksyä arkistoformaateiksi.
Myös AbiWordin ja Gnumericin natiiviformaatit ovat XML-pohjaisia. On oletettavissa, että ainakin AbiWordin formaattiin on tulossa lisäyksiä. AbiWordin nykyinen formaatti ei ole oikea rakenteellinen XML-pohjainen dokumenttiformaatti, vaan pikemminkin AbiWordin sisäisten tietorakenteiden yksinkertainen sarjallistus. Formaatin nykyinen versio on kuitenkin huomattavan yksinkertainen. Olisi luultavasti hyvinkin helppoa kirjoittaa ohjelma, joka muokkaisi AbiWord-dokumentin sellaiseksi, että se voitaisiin esittää luettavasti nykyaikaisen WWW-selaimen layout enginellä.
Gnome Office ei ole niin käytetty, että sen dokumenttiformaateista kannattaisi tehdä arkistoformaatteja ainakaan välittömästi. Muutenkin arkistoitavuutta haittaa se, että formaatit ovat kovin sovelluskohtaisia ja mahdollisesti vielä lähitulevaisuudessa olennaisesti muuttuvia.
[WP] WP 7.0 File Format. Corel Corporation 1996. URL: http://www.corel.com/partners_developers/ds/CO32SDK/docs/ff/A_FRNTFF.HTM
[RTF1.6] Rich Text Format (RTF) Specification, version 1.6. Microsoft Corporation. 1999. URL: http://msdn.microsoft.com/library/?url=/library/en-us/dnrtfspec/html/rtfspec.asp?frame=true
[OO-XML] OpenOffice.org XML File Format 1.0 – Technical Reference Manual. Sun Microsystems, Inc. 2002. URL: http://xml.openoffice.org/xml_specification.pdf