Median ”metadatasta”

Henri Sivonen, korkeakouluharjoittelija, Kansallisarkisto

Henri Sivonen on laatinut tämän dokumentin Kansallisarkistossa kesällä 2002. Dokumentti sisältää Sivosen Kansallisarkistolle esittämän näkemyksen. Dokumentti ei välttämättä edusta Kansallisarkiston kantaa (eikä välttämättä edes Sivosen nykyistä kantaa).

Jotta dokumentteja voitaisiin säilyttää pitkäaikaisesti, tiedostoja on tarpeen siirtää silloin tällöin uudelle tallennusmedialle, koska tallennusmedian elinikä voi olla lyhyenpi kuin dokumenttien säilytysaika. Mediamigraation ja muun medianhallinan avuksi tarvitaan tietoa mediasta. (Metadata on tiukasti ottaen dataa datasta eikä mediasta.)

Tallennusmedia väsyy kelvottomaksi ajan kuluessa vääjäämättä. Mediamigraatio tulee siis aina odotetusti vastaan, jos dataa halutaan säilyttää yli median eliniän. Median elinikä voi riippua median fyysisistä säilytysoloista ja käyttöasteesta. Median luonnolliseen väsymiseen liittyvä datahävikki vältetään sillä, että median odotettu väsymisaika tunnetaan ja migraatio tehdään hyvissä ajoin ennen ennustettua väsymistä.

Toisaalta mediasta voi tulla käyttökelvoton etuajassa. Tämä tapahtuu tapauskohtaisesti katsoen yllättäen, mutta yleisellä tasolla ilmiö on odotettavissa oleva. Media saattaa muuttua käyttökelvottomaksi ennenaikaisesti mm. valmistusvirheen, väärän säilytystavan, ylisuuren käyttöasteen tai katastrofin vuoksi.

Koska taltiosta voi tulla käyttökelvoton milloin tahansa, täyttä varmuutta ei saada tekemällä mediamigraatioita ennusteiden perusteella. Jos data halutaan säilyttää myös silloin, kun media osoittautuu vialliseksi tai siihen kohdistuu katastrofi tms., tarvitaan datasta turvakopio, jota säilytetään siten, että on kohtuullista olettaa, etteivät kummatkin kopiot vahingoitu samalla hetkellä. Valmistusvirheiden osalta tämä tarkoittaa sitä, että kaksoiskappaleiden taltioiden pitäisi olla erityyppiset tai vähintäänkin eri valmistuseristä. Yhtäaikaisten katastrofien välttämiseksi kopioita pitäisi säilyttää fyysisesti kaukana toisistaan.

Katastrofit yleensä huomataan, mutta valmistusvirheistä johtuvaa median ennenaikaista pilaantumista ei välttämättä huomata, ennen kuin medialta yritetään lukea dataa. Tämän vuoksi taltioiden tilaa on tarpeen tarkkailla tekemällä lukuja silloin tällöin siinäkin tapauksessa, ettei kukaan asiakas pyydä taltiolla olevaa dataa käyttöönsä. Ensisijaisten (asiakkaiden käytössä) taltioiden lisäksi myös toissijaisten (turvakopio-) taltioiden tilaa on syytä tarkkailla. Jos testilukuja ei voida tehdä kaikille taltioille järjestyksessa taltioiden suuren määrän vuoksi, voidaan satunnaisnäytteitä ottaa joka tapauksessa.

Mediatasolla olisi syytä olla tarkistuslukumekanismi bittivirheiden havaitsemiseen, koska se mahdollistaa ongelmien havaitsemisen yksittäistä taltiota havainnoimalla eikä edellytä vertailua datan kopion kanssa. Jos vertailu olisi tarpeen, se pitäisi tehdä verkkoyhteyden yli yhtäaikaisen katastrofin välttämiseksi. Jatkuvasta suuresta verkkoliikenteestä taas voisi aiheutua liikaa kustannuksia.

Niin kauan, kun tiettyä AIP:ia on onnistuttu säilyttämään siten, että siitä on arkistossa ainakin yksi virheetön kopio, siitä voidaan valmistaa lisää virheettömiä kopioita eivätkä mediamigraatiot ole olleet AIP:in sisällön luonnetta muuttavia. Niinpä onnistuneesta mediatason säilytyksestä ei tarvitse dokumentoida mitään AIP:in sisällä olevaan dokumenttia koskevaan metadataan. Ainoastaan arkiston hakujärjestelmän on tiedettävä, missä mikäkin AIP milloinkin on taltioituna.

Mediaa koskevia olennaisia tietoja

En tunne tätä aihepiiriä riittävän hyvin. Myös muut asiat saattavat olla ollennaisia.

Media valmistettu

Päivämäärä.

Taltion elämä alkaa jo ennen käyttöä. Vuosia varastossa seisoneella medialla voi olla lyhempi käyttöikä kuin suoraan tehtaalta käyttöön tulleella medialla. Jos median valmistusajankohta tunnetaan, se on hyvä kirjata muistiin.

Media ostettu

Päivämäärä.

Valmistusajankohtaa ei ehkä saada selville, mutta ostoajankohta ainakin voidaan kirjata muistiin. Niinpä eliniästä voidaan tehdä arvioita ostohetken perusteella, jos valmistusajankohtaa ei tunneta.

Ensimmäinen kirjoitus

Päivämäärä.

Käyttöönoton yhteydessä medialle kirjoitetaan ensimmäisen kerran asiasisältöä. Jos medialle talletettu jälki hiipuu kirjoitushetkestä lähtien, tarvitaan tieto siitä, milloin aikaisintaan medialle on kirjoitettu hyötydataa. Tämän perusteella voidaan arvioida, milloin ensimmäisenä kirjoitettu hyötydata pilaantuu.

Median tyyppi

Nimi, joka on valittu arkistossa käytössä olevien mediatyyppien luettelosta.

Jotta säilyvyysennusteita voitaisiin tehdä, tarvitaan tieto median tyypistä.

Valmistuserä

Merkkijono.

Jos mediasta on tiedettävissä valmistuserän tunnus, se kannattaa merkitä tietokantaan, jotta valmistusvirheen löytyessä voidaan tarkistaa muut samasta valmistuserästä tulleet taltiot.

(Viimeksi laskettu eläkeajankohta)

Päivämäärä.

Jotta ennustetta ei tarvitsisi laskea jatkuvasti uudestaan, kannattaa tuoreimman ennusteen tulos kirjata muistiin. Jos tieto tietyn tyyppisen median säilyvyysominaisuuksista muuttuu, voidaan ennuste laskea uudestaan muiden kenttien avulla.

Tämä on kuitenkin pikemminkin välimuistimenettely kuin välttämätön kenttä.

Tuhoamistaso

Tuhoamistason tunniste.

Taltion sisällöstä riippuen vanhan taltion käytöstä poisto saattaa edellyttää eri tasoisia tuhoamistoimenpiteitä. Vanha taltio voi olla tavallista ongelmajätettä tai sitten laki ja säädökset saattavat asettaa vaatimuksia siitä, että taltio tuhotaan riittävän pätevästi.

Missä backup

Taltiosta pitäisi tietää, missä turvakopio on. Taltion sisällön kopiot voivat olla hajautettuna monelle muulle taltiolle, joten turvakopiotietojen pitäisi olla AIP-kohtaisia.