Ehdotus arkistoon oton (ingest) yhteydessä tehtävistä testeistä

Henri Sivonen, korkeakouluharjoittelija, Kansallisarkisto

Henri Sivonen on laatinut tämän dokumentin Kansallisarkistossa kesällä 2002. Dokumentti sisältää Sivosen Kansallisarkistolle esittämän näkemyksen. Dokumentti ei välttämättä edusta Kansallisarkiston kantaa (eikä välttämättä edes Sivosen nykyistä kantaa).

Arkistoon ottamisen yhteydessä arkistoitavaille paketeille on tarpeen tehdä kelpoisuustestejä. Testien tarkoituksena on pienentää arkistoon otettujen AIP:ien (Archival Information Package [OAIS]) viallisuuden todennäköisyyttä karsimalla ilmeisen virheelliset tapaukset pois. Hylätyt AIP:it olisi tarkoitus antaa jonkun korjattavaksi ennen kuin ne otetaan arkistoon. Tässä hylkääminen siis ei tarkoita sitä, että dokumentin arkistoinnista luovuttaisiin.

Viranomaiselta tai muulta arkistoitavien dokumenttien tuottajalta tulee arkistoon SIP (Submission Information Package [OAIS]). SIP saattaa olla sama kuin AIP tai sitten hieman erilainen. Tässä käsittelen asiaa kuten tarkistettava tiedosto olisi AIP. Käytännössä kuitenkin joitain testejä voi olla käytännöllisempaa suorittaa SIP:in purkamisen jälkeen ennen AIP:in paketointia, jos SIP ja AIP ovat erilaiset. Lisäksi oletan, että yhdessä tarkistettavassa paketissa on yksi dokumentti (joka saattaa koostua monesta tiedostosta). Jos arkistossa päätetään tallentaa yhteen AIP:iin monta dokumenttia tai tallentaa joistain dokumenteista vain merkistä dokumentin tuhoamisesta, jotkin tässä ehdottamani yksityiskohdat eivät ole soveltuvia.

Oletan tässä, että testit tehdään jollain Unixin kaltaisella järjestelmällä (esim. AIX tai Linux). Työkalut ovat tarvittaessa saatavissa myös Windows-maailmaan.

AIP

Metadata

CCITT G4 TIFF

PNG

JFIF

PDF

Ks. erillinen selvitys.

XML

Pelkkä teksti

Lähteet ja ohjelmalinkit

[OAIS] Reference Model for an Open Archival Information System (OAIS). (CCSDS 650.0-R-2, suositusluonnos) Consultative Committee for Space Data Systems. 2001. URL: http://www.ccsds.org/documents/pdf/CCSDS-650.0-R-2.pdf

[CharMod] Character Model for the World Wide Web 1.0. (W3C Working Draft 30 April 2002.) Dürst (toim.) et al. The World Wide Web Consortium. 2002. URL: http://www.w3.org/TR/2002/WD-charmod-20020220/ (uusin versio: http://www.w3.org/TR/charmod/)

UnZip: http://www.info-zip.org/pub/infozip/UnZip.html

jar: http://java.sun.com/j2se/1.3/docs/guide/jar/jar.html

diff: http://www.gnu.org/software/diffutils/diffutils.html

libtiff: http://www.libtiff.org/

libpng: http://www.libpng.org/pub/png/libpng.html

The Independent JPEG Group: http://www.ijg.org/

charlint: http://www.w3.org/International/charlint/