Henri Sivonen, korkeakouluharjoittelija, Kansallisarkisto
Henri Sivonen on laatinut tämän dokumentin Kansallisarkistossa kesällä 2002. Dokumentti sisältää Sivosen Kansallisarkistolle esittämän näkemyksen. Dokumentti ei välttämättä edusta Kansallisarkiston kantaa (eikä välttämättä edes Sivosen nykyistä kantaa).
Käyn tässä läpi joukon tiedostoformaatteja, jotka ainakin alustavasti vaikuttivat siltä, että niiden soveltuvuutta pitkäaikaissäilytykseen kannatti tarkastella hieman lähemmin.
Tässä dokumentissa tarkoitan patenttitilanteella patenttitilannetta lähinnä Yhdysvalloissa. Vaikka patentit eivät olisikaan päteviä Suomessa tai edes EU:ssa, patenttilanne Yhdysvalloissa vaikuttaa kuitenkin erittäin olennaisesti ohjelmien saatavuuteen, formaattien yleistymiseen, ohjelmien hintaan ja lisensseihin liittyviin velvoitteisiin tai rajoituksiin myös Suomessa. Patenttitilannearvioita ei tule pitää varmoina tietoina. Minulla ei ole mitään lainopillista koulutusta.
PNG kehitettiin erityisesti GIF:in korvikkeeksi GIF:in patenttiongelmien vuoksi. PNG on kuitenkin paljon ilmaisukykyisempi kuin GIF. PNG tukee harmaasävyjä (mukaan lukien mustavalko) ja RGB-värejä. Värit voivat olla indeksoituja (8 bittiä/pikseli asti) tai kanavamuodossa 8 bittiä/kanava tai 16 bittiä/kanava. PNG-tukee myös alfakanavaa ja väriprofiilien sisällyttämistä tiedostoon. PNG-muodossa käytetään deflate-pakkausta, joka on häviötön. PNG:ssä voidaan (ja kannattaa) käyttää häviöttömiä datasuotimia, jotka muuttavat bittien järjestelyä pakkausta edistävällä tavalla. Tämän vuoksi optimoidun PNG:n käyttäminen on edullisempaa kuin pelkkä pakkauksen delegointi AIP-tasolle.
PNG:stä on saatavilla laadukas referenssitoteutus, jonka lisenssi on hyvin salliva. Erinomaisten ominaisuuksiensa, patenttivapautensa ja hyvän referenssitoteutuksen ansiosta PNG on erittäin laajalti tuettu.
PNG on W3C:n suositus ja siitä on tulossa ISO-standardi.
PNG on selvästi määritelty ja siinä on käytössä vain yksi pakkausmenetelmä (ja pakkauksen käyttö on formaatissa pakollista). Implementaatiorajoitukset liittyvät yleensä läpinäkyvyystukeen ja värien hienosäätöön. Yleensä voidaan lähteä siitä, että PNG:tä lukeva ohjelma osaa ainakin lukea kuvan pääasiallisen pikselidatan, vaikkei se osaisikaan käyttää läpinäkyvyysinformaatiota tai tukea tarkkaa värikalibraatiota. Näin ollen PNG on paljon varmempi ja selkeämpi formaatti kuin TIFF.
Nykyinen pätevänä pidetty arvio on se, että deflate-pakkauksen toteutus sellaisena kuin se on zlib-kirjastossa, on vapaa patenteista. Jean-loup Gailly (toinen zlibin tekijöistä) on kertomansa mukaan tutkinut pakkauspatentteja tarkasti varmistaakseen, ettei zlib ole patenttien alainen. Ohjelmien juridisesta statuksesta tarkka Free Software Foundation on hyväksynyt zlibiä käyttävän gzip-pakkausohjelman ohjelmiensa joukkoon eikä kukaan tiettävästi ole haastanut Free Software Foundationia oikeuteen deflate-algoritmin vuoksi.
Esitän, että PNG:tä käytetään aina, kun tarvitaan häviötön pakkaus, PNG:n tukemat värijärjestelmät (harmaasävy ja RGB) kelpaavat kuvan esittämiseen ja jollain toisella formaatilla ei saavuteta aivan erityistä tilansäästöä. (Aivan erityinen tilansäästö voidaan saada aikaan lähinnä kaksivärikuvien kohdalla käyttämällä kaksivärikuville optimoitua pakkausta.)
PNG:n pakkaukseen voi vaikuttaa säätämällä zlibin parametreja ja valitsemalla kunkin pikselirivin pakkausta edeltävän datan uudelleenjärjestely (filtering) adaptiivisesti. Arkistokäytössä kannattaa säästää tilaa ja käyttää aina zlibin pakkaustasoa 9 ja adaptiivista datan uudelleenjärjestelyä (filtering). Tämä voidaan tehdä esim. pngcrush-ohjelmalla.
CCITT Group 4 on mustavalkokuvien (alunperin faksien) pakkaamiseen tarkoitettu algoritmi. CCITT Group 4 on 100 ppi:n tietämille asettuvien tekstisivujen mustavalkokuvien pakkaamisessa tehokkaampi kuin zlib/deflate. Group 4:n pakkaustuote pakkautuu vielä havaittavasti lisää deflate-menetelmällä. (Tämä ominaisuus on poikkeuksellinen. Yleensä kahden pakkauksen peräkkäinen käyttö ei paranna tuloksia.)
CCITT Group 4 on ITU-suositus. Se on myös de facto -standardi pelkkää tekstiä sisältävistä papereista skannattujen mustavalkokuvien arkistoformaattina.
En ole löytänyt lausumia Group 4:n patenttitilanteesta suuntaan enkä toiseen. Group 4:ään suhtaudutaan kuten se olisi vapaa patenteista.
Tässä vastakkain ovat mustavalko-PNG:tä pienempi tiedostokoko ja se, että pitäisi tukea useampaa formaattia. Jos mediasäästöjä pidetään kustannustehokkuuden kannalta tärkeämpänä kuin erilaisten formaattien pientä määrää, kannattaa Group 4:ää käyttää (ja kannattaa käyttää vielä lisäksi deflate-pakkausta AIP-tasolla).
JFIF-tiedostoja kutsutaan arkikielessä JPEG-tiedostoiksi. Tämä muoto on nykyisin ylivoimaisesti käytetyin häviöllinen jatkuvasävyisten bittikarttojen tallennusmuoto. Pakkaus perustuu diskreettiin kosinimuunnokseen, syntyneiden kertoimien kvantisointiin ja Huffman-koodaukseen.
JPEG on ISO-standardi.
JPEG-standardissa määritellään myös menetelmiä, jotka ovat patentoituja (aritmeettinen koodaus). Tässä tarkoittamani yleisesti käytetyn Huffman-koodatun JPEG-muodon on uskottu olevan vapaa patenteista.
Kuitenkin juuri nyt kesällä 2002 on tullut esiin patentti, joka nykyisen omistajan, Forgentin, mielestä koskee JPEG Baseline -pakkausta. Patentin nykyinen omistaja on päättänyt hankkia helppoa rahaa vaatimalla patenttilisenssimaksuja JPEG-pakkauksen toteuttajilta.
ISO:n JPEG-komitea aikoo etsiä prior artia (patenttia edeltäviä julkaistuja tapauksia patentoidusta menetelmästä), jonka avulla patentti voitaisiin näyttää epäpäteväksi. Tähän mennessä (30.8.2002) Forgentin vaatimuksiin suostuneet yritykset ovat tiettävästi olleet japanilaisia. Saattaa olla, että jokin iso amerikkalainen yritys uskaltaa mennä asiassa kotikentällä oikeuteen asti saadakseen patentin mitätöityä tai todetuksi JPEG:iä koskemattomaksi.
The Independent JPEG Groupin organisaattorin Tom Lanen mielestä patentti ei koske JPEG:iä. Algo Vision LuraTechin julkaiseman mielipiteen mukaan patentti ei ole pätevä prior artin vuoksi.
Vaikka Forgent pääsisikin jatkamaan toimiaan Yhdysvalloissa ja Japanissa, patentti raukeaa jo kahden vuoden kuluttua eikä liene realistista olettaa, että Forgentilla olisi edellytyksiä lisenssimaksujen keräämiseen pelkästään EU:n sisällä toimivilta tahoilta, ellei joku maksa vapaaehtoisesti.
Suositan JFIF-tiedostoon paketoitua JPEG Baseline -muotoa häviöllisesti pakattavien bittikarttojen arkistomuodoksi. Formaatti on erittäin laajalti tuettu ja sen saa toteuttaa vapaasti. Lisäksi saavutettavat pakkaussuhteet ovat hyviä ja näyttää siltä, että vanha JPEG on jopa JPEG 2000 verrattuna hyvä (ellei parempi!) kun halutaan pakata kuvaa häviöllisesti mutta vain sen verran, ettei häviöllisyys vielä näy. (JPEG 2000 on parempi, jos häviön näkyminen sallitaan, mutta häviön näkymisen salliminen soveltuu lähinnä verkkojulkaisuihin eikä arkistoon.)
ITU (entinen CCITT) on työstänyt JBIG2-pakkausta CCITT Group 4:n ja JBIG:in korvaajaksi. JBIG2 on moninkertaisesti Group 4:ää tehokkaampi. JBIG2 on tarkoitettu ensisijaisesti kaksivärisille bittikartoille.
JBIG2:sta tullee ISO-standardi, mutta se on vielä lopullisen luonnoksen tasolla.
JBIG2 on patenttien alainen.
Teknisestä näkökulmasta JBIG2 vaikuttaa erityisen käyttökelpoiselta. Se ei kuitenkaan ole vielä standardi eikä se ole yleisesti käytössä. Lisäksi patenttilisensointitilanne vaikuttaa epäselvältä. JBIG2:n tulevaisuus on siis vielä hämärä. Siksi JBIG2 ei mielestäni kelpaa arkistoformaatiksi lähitulevaisuudessa, mutta asiaan kannattaa palata parin vuoden päästä.
JBIG on ITU:n (entinen CCITT) korvike CCITT Group 4:lle. Sen kerrotaan olevan Group 4:ää tehokkaampi, mutta sitä ei ole toteutettu juuri missään patenttiongelmien vuoksi. (JBIG:ista on olemassa eurooppalainen toteutus, jota ei kuitenkaan uskalleta käyttää, koska kirjastoa käyttävien tuotteiden levittäminen Yhdysvalloissa aiheuttaisi juridisia ongelmia.)
En ole löytänyt tarkkaa tietoa kaikista patenttiongelmista, mutta ne ovat kuitenkin niin hankalia, että JBIG on jäänyt käytännössä pöytälaatikkostandardiksi.
JBIG:iä ei kannata käyttää, koska se on liian harvinainen ollakseen turvallinen pitkäaikaissäilytyksen tarpeisiin. JBIG on väliinputoaja. Group 4:sta siirryttäneen suoraan JBIG2:een, jos siirrytään ollenkaan. Esitän, ettei JBIG:iä tuettaisi arkistoformaattina.
JPEG 2000 on uusi häviöllinen ja häviötön bittikarttapakkausstandardi, joka on tarkoitettu JPEG:in seuraajaksi. JPEG 2000 perustuu diskreettiin wavelet-muunnokseen ja aritmeettiseen koodaukseen. JPEG 2000 -datavirta voidaan katkaista mielivaltaisesta kohdasta, jolloin kuvasta vain jää yksityiskohtia pois. Häviöllinen tila on siis tavallaan häviötön tila katkaistuna.
JPEG 2000:n tehokkuudesta liikkuu villejä väitteitä, mutten ole itse nähnyt vakuuttavia esimerkkejä siitä, että arkistoon sopivilla laadulla saataisiin olennaisia etuja vanhaan JPEG:hen verrattuna arkistokäytössä, jossa progressiivinen esitys ei ole välttämätön. Testasin LuraTechin ja Applen JPEG 2000 -toteutuksia. Vaikutti siltä, että vanha JPEG on edelleen parempi, jos halutaan häviöllinen pakkaus mutta vain niin lievästi häviöllinen, ettei häviöllisyys näy. JPEG 2000 -hype perustuu JPEG 2000:n toimintaan sellaisissa tapauksissa, joissa lähtökohtaisesti sallitaan häviöllisyyden näkyminen kuvassa, ja sellaisiin tapauksiin, joissa halutaan, että samasta tiedostosta voidaan lähettää vastaanottajalle vain sen verran dataa kuin vastaanottaja haluaa tai voi ottaa vastaan.
JPEG 2000:ta ei ole vielä toteutettu laajalti, joten jo siksi voidaan katsoa, ettei se ole riittävän yleinen sopiakseen arkistoformaatiksi.
JPEG 2000:ssa on määritelty purkumenetelmä, mutta pakkauspauolella eri toteutuksilla on liikkumavaraa, kunhan purku onnistuu määritellyllä algoritmilla. Niinpä on mahdollista, että tulevaisuudessa markkinoille tulee (luultavasti hintavia) JPEG 2000 -toteutuksia, jotka ovat ensimmäisiä toteutuksia parempia.
JPEG 2000:n ominaisuudet ovat lukuisten patenttien alaisia. JPEG-komitean tiedotteesta olen saanut sen käsityksen, että JPEG 2000:n määrittelykomiteaan kuuluneet yritykset olisivat sitoutuneet lisensoimaan patenttinsa maksutta JPEG 2000:n toteutusta varten.
Silti on epäselvää, saako JPEG 2000 -toteutuksista tehdä vapaasti edelleenlevitettäviä vai pitääkö kunkin levittäjän rekisteröityä erikseen ilmaisia patenttilisenssejä varten. Jos jokaisen levittäjän pitää hankkia joukko ilmaisia patenttilisenssejä erikseen, open source -levitys ei ole mahdollista.
Vielä on olemassa sekin mahdollisuus, että jollakin JPEG 2000:n määrittelykomiteaan kuulumattomalla taholla on JPEG 2000 koskevia patentteja. Jos näin on, koko standardi luultavasti vesittyy toteutuskelvottomaksi. On siis varovaista odotella ja seurata tilannetta.
JPEG 2000:n vahvat puolet ovat mielenkiintoisia lähinnä hitaiden verkkoyhteyksien yli toteutetussa verkkojulkaisussa eivätkä niinkään arkistokäytössä. Vanha JPEG pitää edelleen paikaansa valokuvien arkistointiin sopivana formaattina. Lisäksi riski siitä, ettei laillisesti ongelmattomia vapaita JPEG 2000 -toteutuksia tulekaan saataville on näillä näkymin liian suuri pitkäaikaissäilytyksen kannalta.
Motion-JPEG:illä tarkoitetaan sitä, että video esitetään jonona JPEG-kuvia. Motion-JPEG:issä ei ole minkäänlaista kuvienvälistä pakkausta, minkä vuoksi se soveltuu editointijärjestelmien työstömuodoksi.
Motion-JPEG:istä ei ole virallista määritystä eivätkä kaikki Motion-JPEG:in nimellä kulkevat toteutukset ole yhteensopivia. Motion-JPEG voidaan paketoida esim. Applen QuickTime-formaattiin tai Microsoftin AVI-formaattiin. Apple tarjoaa kodekit kahdelle Motion-JPEG -variantille. Periaatteessa varmimmin säilyvä koodaus olisi videon purkaminen numeroiduiksi JFIF-tiedostoiksi, mutta niitä ei tyypillisesti voisi käyttää video-ohjelmien kanssa suoraan.
Motion-JPEG 2000:sta, jossa käytetään vanhan JPEG:in sijaan JPEG 2000:ta ja joka on määritelty selvemmin, on tulossa ISO-standardi.
Patenttitilanteen pitäisi olla sama kuin vastaavasti pakattujen still-kuvien kohdalla. Ainoa potentiaalinen lisäongelma voisi olla se, että jollekulle olisi myönnetty triviaalipatentti nimenomaisesti JPEG-kuvien asettamiseen peräkkäin.
Arkistointinäkökulmasta Motion-JPEG:in etu olisi se, ettei tarvitsisi miettiä MPEG:in lisensointia. Toinen etu olisi se, että formaatin dekoodaukseen ei tarvittaisi paljoa lisää JPEG-tukeen verrattuna. Kuitenkin yksiselittäisen formaattimäärityksen puuttuminen on ongelma. Lisäksi arkiston mediakustannusten kannalta olisi olennaista pakata videodata mahdollisimman pieneksi. Kuvienvälisen pakkauksen puute on sikäli ongelma.
MPEG-4 on tuorein ISO:n videostandardi. Aiemmista MPEG-standardeista poiketen MPEG-4 on suunniteltu myös muuhunkin käyttöön kuin vain TV-kuvan pakkaamiseen. Teknisesti MPEG-4:lla olisi potentiaalia suljettujen de facto -standardien, kuten Sorenson-pakatun QuickTimen, syrjäyttämiseen. Lisenssivaikeuksien takia saattaa kuitenkin käydä niin, että Mac- ja Windows-maailmassa Applen toimittamat Sorenson-ratkaisut ovat kustannusrakenteeltaan houkuttelevampia sisällöntuottajien kannalta.
ISO:lta on saatavilla valmista lähdekoodia optimoimatonta MPEG-4 -dekooderia varten.
MPEG-4 Video on useiden patenttien alainen. Tähän mennessä esiin tulleet patentinhaltijat ovat järjestevät yhteislisensoinnin MPEG-LA -yrityksen kautta. Tällä hetkellä näyttäisi siltä, että MPEG-LA:lle ei riitä vain se, että pakkaus- ja purkutuotteiden valmistajat maksavat rojalteja, vaan pakkausohjelman käyttämisestä ja pakattujen tiedostojen levittämisestä pitäisi maksaa rojaltia. Jotkut arvelevat, että MPEG-4:sta voi tulla väliinputoajastandardi lisensointisotkujen pitkittymisen vuoksi.
Jos hyväksytään se, että rahaa voidaan käyttää (mahdollisesti välillisesti) patenttilisensseihin, MPEG-4 vaikuttaa teknisesti pätevältä ratkaisulta, joka on ISO-standardi ja jonka dokumentaatio on siten saatavilla. MPEG-4 ei kuitenkaan ole vielä kunnolla yleistynyt.
MPEG-2 on ISO:n standardi videolle ja äänelle. Sitä käytetään lähinnä DVD-tuotteissa.
MPEG-2:n väitetään olevan noin 100 patentin alainen. Hankalan lisensointitilanteen vuoksi standardia ei ole sovellettu henkilökohtaisten tietokoneiden videojärjestelmissä DVD-sovelluksia lukuun ottamatta.
Rajoittuneen käyttöalansa vuoksi MPEG-2:ta ei mielestäni kannata käyttää arkistoformaattina.
MPEG-1 on ISO:n MPEG-komitean vanhin videon- ja äänenpakkausstandardi. Sille löytyy purkutuki monilla käyttöjärjestelmillä. Näiden toteutusten patenttilisensointistatus kuitenkin vaihtelee.
MPEG-1:n patenttitilanne on vähintäänkin epäselvä, mutta luultavasti se ei ole yhtä hankala kuin MPEG-2:n kohdalla.
En osaa esittää MPEG-1:stä varmaa mielipidettä. Valinta MPEG-4:n ja MPEG-1:n välillä on pitkälti valinta pakkaustehon, patenttiyksityiskohtien ja tekniikan yleisyyden välillä.
Sorenson Video on QuickTime 3-5:n kodekeista paras videokodekki. Eri QuickTimen versioiden mukana tulee Sorenson Videosta eri versiot. Sorenson Video -pakattu QuickTime on de facto -standardi Mac-maailmassa.
Yleisenä tietona on pidetty sitä, että Apple olisi lisensoinut Sorenson Video -purkamisen yksinoikeudella. Varsinainen patenttitilanne on epäselvä. Apple haastoi Macromedian oikeuteen, kun Sorenson lisensoi omasta mielestään hieman eri kodekin Macromedialle. Käytännössä tilanne on joka tapauksessa se, että Sorenson Videon purkaminen on rajoitettu tiukasti Applen QuickTime-ympäristöön eikä sitä saa toteuttaa muissa ympäristöissä, vaikka olisi valmis tarjoamaan rahaa.
Silloin, kun kaikki osapuolet käyttävät QuickTimeä, sisällöntuottajien ja -levittäjien ei tarvitse maksaa juoksevia kuluja. Tämän vuoksi Sorenson Video on sellaisessa videotuotannossa, jossa ei tarvitse miettiä arkistoitavuutta tai yhteensopivuuta, lisensoinnin kannalta miellyttävämpi ratkaisu kuin MPEG-standardit.
Sorenson Video ei sovi arkistoformaaksi, koska formaattimääritys lienee salainen ja formaatti on tiukasti Applen kontrollissa.
Windows Media on tiukasti Microsoftin otteessa oleva formaatti. Vaikka Microsoft on omaksunut joitakin MPEG-4 -videon piirteitä, se ei tue MPEG-4 -standardia sillä tavalla, että sen tuotteet olisivat yhteensopivia MPEG-4 -toteutusten kanssa.
Microsoft halunnee pitää Windows Media -muotoisten tiedostojen luomisen kohtuullisen halpana Windows-asiakkaille. Hintarakenteen pysyvyydestä ei ole mitään takeita.
Formaatti ei ole standardi ja se on tiukasti Microsoftin kontrollissa ja muutettavissa. Siksi se ei sovi arkistoformaatiksi.
DivX on tullut kuuluisaksi elokuvapiraattien suosikkiformaattina. (Tästä voidaan olettaa, että kodekki pakkaa videota kelvollisella laadulla pienempään tilaan kuin MPEG-1 ja MPEG-2.) Joitain DivX-toteutuksia väitetään MPEG-4 Videon mukaisiksi. Tällöin ei kuitenkaan selitetä, miten patenttiasiat on hoidettu. Tiettävästi DivX-toteutukset eivät ainakaan ole kokonaisuuksina MPEG-4 -standardin mukaisia, koska datavirran paketointiin ei käytetä MP4-tiedostoformaattia.
DivX:n patenttitilanne on vähintäänkin epäselvä. DivXNetworksin mukaan sillä on DivX:ää koskeva patentinhakuprosessi kesken.
Koska jopa kodekin itsensä stabiilius (muutosmielessä) ja patenttistatus ovat epäselviä, en uskalla suosittaa DivX:ää arkistoformaatiksi.
MNG on PNG:hen ja JPEG Baselineen perustuva animaatio- ja monikuvaformaatti.
Luultavasti patenttitilanne on sama kuin PNG:llä ja JPEG:illä. Teoriassa on mahdollista, että näiden asioiden yhdistelylle olisi myönnetty triviaalipatentti.
Tälle formaatille ei juuri ole tarvetta, jos lähdetään siitä, että monisivuisten dokumenttien kovat tallennetaan joukkona yksittäisiä sivuja esittäviä kuvia.
MPEG-4 VTC on MPEG-4 -standardiin kuuluva häviöllinen still-kuvien pakkausmenetelmä, joka ei [JPEG2000-study]:n mukaan ole yhtä tehokas kuin JPEG 2000. MPEG-4 VTC perustuu waveletteihin ja aritmeettiseen koodaukseen.
Waveletteihin ja aritmeettiseen koodaukseen liittyy patentteja.
Mielestäni MPEG-4 VTC:tä ei kannata käyttää. JPEG 2000 on parempi wavelettivaihtoehto niin pakkaussuhteen, odotettavissa olevan implementaatioiden saatavuuden kuin patenttilisensoinnin helppouden kannalta.
FlashPixistä piti tulla de facto -standardi digitaalikameroihin. Formaattia ei kuitenkaan otettu hyvin vastaan (monien mielestä varmaankin odotetusti), koska JFIF/JPEG on riittävän hyvä, on jo laajalti tuettu ja on vapaasti toteutettavissa. FlashPixista voidaan avata osittaisia kuvia ja näkymiä eri resoluutioilla nopeasti.
Selvittämättä.
Tiedostoformaatti ei ole riittävän laajalti toteutettu kelvatakseen arkistoformaatiksi. Esitän, ettei FlashPixiä tuettaisi arkistoformaattina.
On olemassa JPEG 2000:ta vanhempia häviöttömiä formaatteja, joiden nimessä esiintyy ”JPEG”, mutta niitä ei käytetä juuri missään. Näistä JPEG-LS saavuttaa [JPEG2000-study]:n mukaan parempia tuloksia kuin PNG 8 bit/px -kuvilla.
Tutkimatta.
Näitä pakkausmenetelmiä ei käytetä juuri missään, joten ne eivät kelpaa arkistokäyttöön. JPEG-LS:n pakkaussuhteen ero PNG:hen verrattuna ei ole niin olennainen, että sen vuoksi kannattaisi valita harvinainen pakkausmenetelmä. Esitän, ettei Lossless JPEG:tä tai JPEG-LS:ää tuettaisi arkistoformaatteina.
LZW-pakkaus on suhteellisen hyvä (muttei aivan yhtä hyvä kuin deflate) häviötön pakkausmenetelmä. Siihen aikaan, kun LZW-pakkaus otettiin mukaan TIFF-määritykseen, menetelmän luultiin olevan vapaa. Nykyisin TIFF-LZW:tä käytetään lähinnä kalliiden DTP-ohjelmien kanssa.
Unisys omistaa patentin LZW-pakkaukseen ja on valvonut patenttiaan aktiivisesti viime vuosina. Unisysin lisensointipolitiikka on sikäli hankala, ettei riitä, että pelkkä LZW-palvelun tarjoavan kirjaston tekijä (esim. Microsoft) lisensoisi patentin, vaan Unisys haluaa, että jokainen sellaista kirjastoa käyttävä sovelluskehittäjä lisensoi patentin erikseen.
Eräs episodi oli sellainen, että Unisys halusi rahaa kaikilta, jotka levittävät Webissä LZW-algoritmin pakkaustuotteita, mutta Unisys on sittemmin selittänyt asian parhain päin ja sanoo, että lisenssi koskeekin vain niitä, jotka ovat huolissaan ohjelmiensa lisenssistatuksesta.
Yhdysvaltalainen patentti vanhenee pian. Vielä ei kuitenkaan ole aivan selvää, onko Unisysillä jotain muita perusteita lisenssimaksujen keräämisen jatkamiseen.
Riippumatta siitä, onko patentti pätevä Suomessa, patenttitilanne on johtanut siihen, ettei LZW-pakkauksen toteuttavia ohjelmia juuri liiku vapaana. Siitä taas seuraa se, että Kansallisarkiston olisi vaikeampaa paketoida virastoille käytettäväksi valmiita vapaita konverttereita.
Yleisen uskomuksen mukaan Unisysin omistama patentti ei ole LZW-pakkauksen purkamisen osalta pätevä. LZW-pakkauksen purku on toteutettu monissa vapaissakin ohjelmissa. Tiettävästi Unisys ei ole haastanut oikeuteen ketään pelkästä LZW:n purkamisesta. Unisys kuitenkin sanoo mielellään, että myös purkamiseen tarvitaan lisenssi.
Esitän, ettei LZW-pakkausta käytetä, koska deflate-pakkaus on parempi ja koska virastoille voi olla hankalaa toimittaa halpoja LZW-pakkauksen toteuttavia ohjelmia.
LZW:n patenttiongelmien vuoksi ja osittain myös siksi, että deflate pakkaa LZW:tä paremmin, myös deflatea on haluttu käyttää TIFF:in pakkaamiseen. TIFF:in pakkausalgoritmivalikoima on laajennettava eikä Deflate kuulunut alkuperäisten virallisten pakkausmenetelmien joukkoon. Adobe dokumentoi TIFF:in Deflate-variantin vasta alkuvuodesta 2002. Adoben mukaan muut ovat jo aiemmin kehittäneet vastaavia menetelmiä Adobesta riippumatta. Niinpä ymmärrettävästi yhteensopivia TIFF-Deflate -toteutuksia ei vielä juurikaan esiinny.
Patenttitilanteen pitäisi vastata PNG:n tilannetta, eli patenttiongelmia ei tiettävästi ole.
TIFF-Deflate ei tarjoa PNG:hen verrattuna käytännössä mitään etua silloin, kun käytetty värijärjestelmä on PNG:ssä tuettu. PNG on paljon laajemmalti toteutettu kuin TIFF-Deflate. Lisäksi deflate-pakkausta voidaan käyttää AIP-tasolla. Kun pakkaus on delegoitu AIP:iin, voidaan TIFF jättää pakkaamattomaksi. Tällöin kuitenkin menetetään predictorin tuoma pakkausetu. Toistaiseksi TIFF-Deflate on sen verran harvinainen formaatti, että mielestäni TIFF:in deflate-pakkaus kannattaa delegoida AIP-tasolle.
MP3 on psykoakustiikkaan perustuva äänenpakkausmenetelmä. Sitä käytetään yleisesti kannettavissa muistipiiri- tai kovalevypohjaisissa musiikkisoittimissa ja tietokoneella toimivissa musiikkisoittimissa. MP3 tukee stereokanavien yhteispakkausta.
MP3 on osa ISO-standardia.
MP3:n purku on määritelty. Koodauksen saa tehdä vapaasti, kunhan tulos voidaan purkaa standardinmukaisella purkuohjelmalla. Tämän vuoksi pakkausohjelmien laatu vaihtelee.
Fraunhofer IIS ja Thomson Multimedia omistavat MP3:a koskevia patentteja. Rojalteja vaaditaan pakkaus- ja purkutuotteiden valmistajilta sekä pakattujen tiedostojen levittämisestä tulonhankintatarkoituksessa ja organisaation vuotuiset bruttotulot ylittävät sadantuhannen dollarin rajan.
MP3 olisi teknisesti kelpo valinta äänen pakkaukseen. Ainakin se on laajalti toteutettu. Patenttitilanne on kuitenkin ongelma.
MPEG-4 Advanced Audio Coding on MP3:n seuraajaksi tarkoitettu psykoakustiikkaan perustuva äänenpakkausmenetelmä. MPEG-4 AAC tukee monikanavaääntä (1-48 kanavaa toteutuksesta riippuen).
MPEG-4 AAC on osa ISO-standardia. Se ei kuitenkaan ole vielä laajalti käytössä, koska standardi on niin uusi.
Ainakin Dolby, Nokia, Fraunhofer, Sony ja AT&T omistavat MPEG-4 AAC:ia koskevia patentteja. MPEG-4 AAC:ia käsittelevien tuotteiden levitys edellyttää lisenssin, joka voidaan ostaa kokonaispakettina Dolbyltä. Toisin kuin MP3:n kohdalla, MPEG-4 AAC -pakattujen äänitiedostojen levittämisestä tai pakattujen tiedostojen käyttämisestä ei pyydetä rojalteja.
Arkistolaitoksen ei siis tarvitsisi patenttilisenssiä, jos ohjelma ostetaan valmiina ulkoa ja ohjelman valmistajalla on lisenssi. Tässä ratkaisussa on se ongelma, että silloin arkistolla ei ole omaa toteutusta, jota voitaisiin ylläpitää talon sisällä.
MPEG-4 AAC ei vielä täytä vaatimusta siitä, että formatti olisi yleisessä käytössä. Lisäksi Ogg Vorbis saattaa osoittautua kustannustehokkaammaksi, ja Ogg Vorbis saattaa olla parempi lukuohjelmien omavaraisuuden kannalta. MP3:lla on yleisyysetu, mutta muuten MPEG-4 AAC vaikuttaa paremmalta vaihtoehdolta kuin MP3.
Ogg Vorbis on psykoakustinen äänenpakkausmenetelmä, jonka tavoitteena on olla vapaa patenteista. Sekä pakkausta että purkua varten on saatavana koodia open-sourcena. Ogg Vorbis on saanut tukea AOL:ltä (WinAmp) ja Real Networksilta.
Tällä hetkellä Ogg Vorbiksen uskotaan olevan vapaa patenteista. Silti on täysin mahdollista, että jostain nousee esiin patentti, jota ei aiemmin ole huomattu.
Tämä saattaa hyvinkin olla järkevä arkistoformaatti äänelle. Ehdotan, että tämän formaatin käyttömahdollisuuksia tutkittaisiin lisää.
WAVE (.wav) on de facto standardi pakkaamattomalle äänelle Windowsilla. Se ei kuitenkaan ole aivan yksiselitteinen formaatti, vaan siitä on liikkeellä erilaisia variantteja (myös pakattuja). AIFF on de facto standardi pakkaamattomalle äänelle Macillä.
Oletettavasti digitaalisen äänen tallennus pakkaamatta on patenttivapaata.
Äänen arkistointi suurissa pakkaamatta aiheuttaisi enemmän mediakustannuksia kuin pakatun äänen arkistointi, joten pakkaamatta arkistointi ei siksi ole kannattavaa.
Broadcast Wave Audio on EBU:n määrittelemä WAVE-variantti, jossa äänidata on MPEG-pakattua.
Käytetyn MPEG-audion patentit.
BWF ei ole yleinen kansainvälinen standardi, vaan eurooppalainen toimialakohtainen määritys. Tästä syystä BWF-tuki lienee rajoittunut lähinnä euroopassa markkinoitaviin kalliisiin radiostudiotuotteisiin. Jos periaatteena pidetään sitä, että kunkin arkistoitavia äänitiedostoja tuottavan viranomaisen pitäisi kyetä koodaamaan sisältö arkistoformaattiin itse, koodaustuotteiden saatavuus ja hinta voi muodostua ongelmaksi.
QDesign Music Codec on tarkoitettu äänen pakkaamiseen pieneen tilaan siten, että vähän häiritsevien kuultavien pakkausvääristymien esiintyminen katsotaan hyväksyttäväksi. Tämän vuoksi tiedostokoot ovat pienempiä kuin sellaisilla menetelmillä, joiden tarkoitus on tuottaa alkuperäiseltä kuulostavaa ääntä.
Näyttää siltä, että formaatti on täysin suljettu ja kodekki on saatavana vain QDesigniltä ja kodekin levitystarkoitukseen lisensoineilta tahoilta.
Formaatti ei ole avoimesti dokumentoitu standardi eikä siksi kelpaa arkistoformaatiksi.
GIF on Compuserven määrittämä formaatti palettia käyttävilla harmaasävy- ja RGB-kuville. Maksimissaan värejä voi olla 256. GIF-muoto tukee myös animaatiota. GIF on yleisesti käytössä Webissä.
GIF:issä käytetään LZW-pakkausta, joten siihen liittyvät kaikki LZW:n ongelmat. (Ks. TIFF-LZW)
GIF ei tarjoa mitään, mitä PNG tai MNG ei tarjoaisi. Se on kuitenkin niitä rajoittuneempi ja huonompaa pakkausta käyttävä. Esitän, ettei GIF:iä tuettaisi arkistoformaattina.
ks. erillinen dokumentti
EPS on erikoistapaus PostScript-ohjelmasta. EPS:ien esittämiseen tarvitaan PostScript-tulkki. EPS on Adoben määrittelmä formaatti.
Enimmäkseen tutkimatta. Luultavasti EPS:ien esittäminen voidaan toteuttaa patenttiongelmitta. EPS:issä voi olla LZW-pakattuja osia.
PostScript-tulkkivaatimus tekee EPS:istä vaikeasti luettavan. Mielestäni on parempi käyttää formaatteja, jotka eivät edellytä ohjelmointikielitulkkia. EPS:it voidaan muuntaa (”tislata”) PDF-tiedostoiksi.
SVG on W3C:n määrittelemä vektorigrafiikkaformaatti. SVG:n käyttöönotto on vielä kesken. Osittaisia toteutuksia on useita, mutta yhteensopivuuden ja kattavuuden puute ovat ongelmia. SVG 1.0 on W3C:n Suositus.
Toistaiseksi ei ole tullut esiin patentteja, jotka estäisivät SVG:n toteuttamisen.
SVG sopisi WWW-käyttöön erinomaisesti, jos se olisi laajemmin toteutettu. Arkistokäytössä täytyisi ottaa huomioon kaikki tavalliset WWW-resurssien arkistointiongelmat eli lähinnä se, että monesta tiedostosta muodostuvan kokonaisuuden keskinäiset linkit ovat suhteellisia ja niitä voidaan käyttää paikallisesti.
W3C:n nykyinen tapa ruveta kehittämään määrityksen seuraavaa versiota, ennen kuin edellinenkään on päässyt Suositus-statukseen ja vakiintunut, häiritsee selkeiden tietyn määritysversion toteutusten vakiintumista.
Ennen kuin SVG:tä kannattaa hyväksyä arkistoformaatiksi, on syytä odottaa, että saataville tulee edes yksi SVG 1.0 -määrityksen kattavasti toteuttava open-source -ohjelma ja että SVG yleistyy käytössä.
CGM on ISO-standardi vektorigrafiikalle. CGM:ää käytetään W3C:n mukaan lähinnä auto- ja lentokone- ja sotateollisuudessa. Erityisesti huomattavaa on se, ettei CGM:llä ole ISO-standardistatuksestaan huolimatta merkitystä tavallisessa julkaisugrafiikassa. WebCGM on W3C:n määrittämä CGM-profiili. Selainvalmistajien keskuudessa ei ole havaittavissa kiinnostusta WebCGM:n toteuttamiseen. Formaattia tarvitsevat käyttävät sitä selaimissa plug-inin tai ActiveX-kontrollin avulla.
Selvittämättä.
CGM on jäänyt lähinnä tiettyjen teollisuudenalojen erityisformaatiksi. PDF on paljon käytetympi ja tuetumpi formaatti. WWW-kontekstissa WebCGM floppasi, ja on oletettavissa, että se jää jatkossakin täysin SVG:n varjoon. Vaikka CGM on ISO-standardi, sen käyttäminen on oletettavisti liian epäkäytännöllistä formaatin harvinaisuuden vuoksi.
[JPEG2000-study] An Analytical Study of JPEG 2000 Functionalities. Diego Santa-Cruz ja Touradj Ebrahimi. Signal Processing Laboratory Swiss Federal Institute of Technology. URL: http://www.jpeg.org/public/wg1n1815.pdf
No more JPEGs – ISO to withdraw image standard. Andrew Orlowski. The Register USA. 23.7.2002. URL: http://www.theregus.com/content/4/25711.html
MPEG4 licence may have come too late. Nick Flaherty. Electronic Engineering Times U.K. 15.7.2002. URL: http://www.electronicstimes.com/tech/news/OEG20020715S0011
Apple sues over Macromedia Flash MX. Matthew Broersma. ZDNet. 1.5.2002. URL: http://zdnet.com.com/2100-1104-896466.html
LZW Software and Patent Information: Web Site LZW Licenses Available from Unisys. Unisys. URL: http://www.unisys.com/about__unisys/lzw/lzw__license__english.htm
LZW Patent and Software Information: License Information on GIF and Other LZW-based Technologies. Unisys. URL: http://www.unisys.com/about__unisys/lzw/
Royalty Rates. Thomson Multimedia. URL: http://www.mp3licensing.com/royalty/emd.html
Dolby Laboratories Announces MPEG-4 AAC Licensing Program. Dolby Laboratories. URL: http://www.aac-audio.com/press/aac_pr_0203_MPEG4.html
Licensing FAQ. Dolby Laboratories. URL: http://www.aac-audio.com/licensing/LicensingFAQ.html
SVG 1.0 Patent Statements. Dean Jackson (toim.) W3C. URL: http://www.w3.org/2001/07/SVG10-IPR-statements.html
RealNetworks and Xiph.org Collaborate to Offer Helix Community Ogg Vorbis Open Source Format and Codec. RealNetworks. 24.7.2002. URL: http://www.realnetworks.com/company/press/releases/2002/xiph.html
Concerning recent patent claims. Richard Clark (JPEG webmaster). 19.7.2002. URL: http://www.jpeg.org/newsrel1.htm
WebCGM Profile. Chris Lilley (toim.). W3C. URL: http://www.w3.org/Graphics/WebCGM/
comp.compression FAQ: What about patents on data compression algorithms? Jean-loup Gailly (toim.). 1999. URL: http://www.faqs.org/faqs/compression-faq/part1/section-7.html
gailly.net. Jean-loup Gailly. URL: http://gailly.net/
Ote The Independent JPEG Groupin postituslista-arkistosta. URL: http://www.ijg.org/archives/jpeg-l.0207.txt
JPEG and JPEG2000 – Between Patent Quarrel and Change of Technology. Algo Vision LuraTech. URL: http://www.algovision-luratech.com/company/news/patentquarrel.jsp?language=3
CVISION Technologies, LLC:n JBIG2-pakkauksen markkinointiin tarkoitettu esimerkkitiedostokokoelma. URL: http://www.cvisiontech.com/jbig2_samplelinks.html