Digitaalisena syntyneiden paperidokumenttien kuvan taltiointitapoja

Henri Sivonen, korkeakouluharjoittelija, Kansallisarkisto

Henri Sivonen on laatinut tämän dokumentin Kansallisarkistossa kesällä 2002. Dokumentti sisältää Sivosen Kansallisarkistolle esittämän näkemyksen. Dokumentti ei välttämättä edusta Kansallisarkiston kantaa (eikä välttämättä edes Sivosen nykyistä kantaa).

Digitaalisina syntyneistä paperille tulostettavaksi tehdyistä dokumenteista voidaan joutua arkistoimaan paperitulosteen kuva. Vastaavaan tilanteeseen voidaan joutua, jos dokumentti on laadittu paperiajatteluun perustuvilla työkaluilla, vaikkei dokumenttia olisikaan ollut erityisesti tarkoituksena tulostaa. Dokumenttia ei kannata skannata paperilta, vaan dokumentin kuva kannattaa ottaa talteen kulkematta paperin kautta. Perustallustapoja on kaksi: bittikartta ja vektorigrafiikkaesitys. Jälkimmäinen on nykyisin käytännössä PDF.

Korkearesoluutioinen (300 ppi) bittikartta

Korkearesoluutioisten bittikarttojen tulostettavuus on varsin hyvä. 300 ppi bittikartta vastaa 1980- ja 1990-lukujen vaihteen lasertulostimien jälkeä. Myös renderoitavuus näytöltä luettavaksi on hyvä. Jos jokainen sivu on tallennettu erilliseksi kuvaksi järkevässä formaatissa, dokumentin renderoitavuus on oletettavasti tulevaisuudessakin erittäin hyvä. Mustavalkobittikartan esittäminen pikselipohjaisella näytöllä on äärimmäisen yksinkertaista. Jos sivut on tallennettu samaan kuvatiedostoon, riski on suurempi, sillä useita kuvia samassa tiedostossa säilyttävät formaatit ovat joko vähän käytettyjä tai olennaisesti yksittäiskuvaformaatteja monimukaisempia.

Migraation tarve siksi, että arkisto olisi menettämässä kyvyn vanhan bittikarttaformaatin lukemiseen, on erittäin epätodennäköinen, jos formaatti on valittu siten, että siitä on arkistoituna ja ylläpidettynä lähdekoodiltaan avoin purkukirjasto. Todennäköisempi migraatioskenaario on se, että formaatti halutaan vaihtaa vähemmän tilaa vieväksi. Tällöin mahdolliset muutokset ovat pakkaaminen uudella algoritmilla, resoluution pudotus ja tunnistus tekstidumpiksi. Kunnollinen muunnos rakenteiseen muotoon ei onnistu ohjelmallisesti (ainakaan ilman hyvin monimutkaista teköälyä). Bittikartat voisi muuntaa bittikarttoja sisältäväksi PDF:ksi, mutta se ei olisi säilytyspyrkimysten kannalta tarpeellista eikä järkevää, koska PDF-kääre lisää monimutkaisuutta. (Bittikarttojen kokoaminen PDF:ksi voi tosin olla tarkoituksenmukaista silloin, dokumentista annetaan kopio arkiston asiakkaalle ja asiakas haluaa käyttää tuttua lukuohjelmaa.)

Isojen bittikarttojen koko onkin niiden olennaisin ongelma. Tallennusmedia maksaa, joten isojen tiedostojen säilyttäminen tulee kalliiksi. Toinen olennainen ongelma on se, että sanahakua varten tarvitaan erillinen tekstitiedosto.

Bittikarttoihin ei tiettävästi liity fonttitekijänoikeusongelmia. Yhdysvalloissa, josta monet fontit tulevat ja jossa tätäkin asiaa on vaivauduttu miettimään, fonttivalmistajalla ei ole oikeuksia asiakkaan fontin avulla tuottamaan tekstin rasterikuvaan. Suomessa asiaa ei tietääkseni ole eksplisiittisesti säädetty (luultavasti ei ole tullut lainsäätäjille mieleen tai sitten asiaa on pidetty itsestään selvänä), mutta täällä on tapana luottaa siihen, etteivät fonttivalmistajat yritä perätä rojalteja fonttien avulla luotujen rasterikuvien toistamisesta.

(Kaikki eivät ole Yhdysvalloissa tyytyväisiä Copyright Officen kantaan. ks. http://www.typeright.org/petition.html)

Alempiresoluutioinen bittikartta (100 ppi ... 150 ppi)

Alempiresoluutioinen bittikartta kelpaa näytöltä luettavaksi mutta voi olla varsin ruma. Tulosteet ovat selvästi huonompilaatuisia kuin suoraan alkuperäisestä ohjelmasta tuotetut tulosteet. Paperin kautta kulkematta suoraan tulostustiedostosta tehdyn kuvan laatu on kuitenkin tyypillistä faksia parempi, koska fakseissa syötepaperi menee aina vähän vinoon. Alempiresoluutioisten bittikarttojen säilyvyys on sama kuin korkearesoluutioisten bittikarttojen säilyvyys.

Alempiresoluutioisten bittikarttojen etu on luonnollisesti se, että ne vievät vähemmän tilaa kuin korkearesoluutioiset bittikartat. Resoluution pudottaminen on paljon helpompi tapa tiedostokoon pienentämiseen kuin pakkaus.

Faksejakin pidetään jossain määrin hyväksyttävinä ja riittävästi informaatioita välittävinä. Koska alempiresoluutioinen bittikartta muistuttaa lähinnä faksia, voidaan ajatella, että tilanteissa, joissa faksiesitystä pidettäisiin riittävän hyvänä esityksenä, on myös muu resoluutioltaan vastaava bittikartta riittävä.

PDF

PDF on monisivuinen fontteja tukeva vektorigrafiikkaformaatti, johon on lisätty ajan kuluessa muitakin ominaisuuksia.

Fonttien käyttö on erittäin olennainen ominaisuus tiedostokoon kannalta, koska samoja kirjaimia esittäviä kuvioita ei tarvitse koodata tiedostoon moneen kertaan. Tästä seuraa se, että tavallisesten toimistotulosteiksi tehtyjen dokumenttien PDF-esitykset ovat olennaisesti bittikarttaesityksiä pienempiä, jos PDF on tehty järkevillä asetuksilla. Lisäksi vektorigrafiikkaluonteen ansiosta PDF:stä voidaan rasteroida korkearesoluutioisia bittikarttaesityksiä.

Jo pelkästään tilansäästön vuoksi PDF:ää on syytä selvittää, voitaisiinko PDF:ää käyttää arkistoformaattina.

Monisivuiset dokumentit: yhteen vai erikseen?

Monisivuisia dokumentteja tallennettaessa eräs olennainen kysymys on se, tallennetaanko kaikki sivut samaan tiedostoon vai jokainen sivu erikseen. Joka tapauksessa AIP kokoaa tiedostot yhteen, joten sivujen sisällyttäminen yhteen tiedostoon AIP:in sisällä ei ole välttämätöntä.

Erikseen tallentamista puoltaa erityisesti se, että silloin tiedostoformaatti voidaan valita vapaammin, ja se, että monisivuisten tiedostojen tuki ohjelmissa on monesti huonompi.

PNG-formaatti ei tue monisivuisuutta. TIFF-tiedostomuoto tukee periaatteessa monisivuisuutta, mutta monisivuisuutta tuetaan ohjelmissa suhteellisen harvoin. Jos halutaan maksimoida todennäköisyys, että dokumentti saadaan kokonaisuudessaan luettavaksi myös tulevaisuudessa valmiilla ohjelmilla, on selvästi varmempaa välttää TIFF:ien monisivuisuutta.

Eräs monisivuisten TIFF:ien välttämistä puoltava näkökohta on myös se, että monisivuiset TIFF:it pitäisi kuitenkin muuntaa joukoksi yksisivuisia, jos arkistoitu dokumentti halutaan toimittaa arkiston käyttäjän omalla tietokoneella selattavaksi. Yleensä käyttäjillä ei ole ohjelmia monisivuisten TIFF:ien lukemiseen tai ainakaan osaamista sellaisten ohjelmien käyttöön.

PDF on alun alkaen suunniteltu useita sivuja tukevaksi formaatiksi ja sitä käytetään yleisesti monisivuisuutta hyödyntäviin tarkoituksiin. Niinpä monisivuisuus on luonnollinen ja tuettu osa PDF:ää, kun taas TIFF:in monisivuisuus on käytännössä päälle liimattu lisäominaisuus. Silti joskus PDF:ääkin käsitellään yksisivuisena: esim. PDF:n sijoittaminen toiseen ohjelmaan kuvana tai PDF:n editointi piirto-ohjelmassa saattaa tukea vain yhden sivun käsittelyä kerrallaan.

Ehdotan, että tiedostomuodon monisivuisuutta käytettäisiin vain, jos monisivuisuus on yleisesti tuettu ja tavallinen toimintatapa kyseessä olevan formaatin kohdalla. Tällä tavalla varmistetaan se, että valittu tapa on yleisesti tuettu. Siispä ehdotan, että bittikarttoina arkistoidut dokumentit (PNG, TIFF, JPEG) tallennettaisiin sivut erillään mutta PDF:ää käytettäessä tallennettaisiin koko dokumentti samaan PDF-tiedostoon.