Klíčové otázky vývoje systému pro dlouhodobou ochranu digitálních objektů Ex Libris Rosetta
Během posledních dvou desetiletí nám digitální technologie umožnily vytvářet, užívat a získávat informace způsoby, jež byly o generaci dříve nemyslitelné. Rostoucí objem digitálních dokumentů v dnešních knihovnách (digitalizovaných i těch, které se jako digitální již „narodily“) vedl k poznání, že je třeba zcela nových opatření, mají-li být tyto digitální fondy dlouhodobě uchovány a zpřístupněny budoucím generacím.
Problém uchování digitálního materiálu je nejnaléhavější u dokumentů digitálně „zrozených“. Převážná většina těchto objektů existuje výhradně v digitální formě, takže jejich dlouhodobá dostupnost je klíčovou podmínkou zachování našeho kulturního dědictví.
Třebaže mnohé organizace využívají systémy pro ukládání a správu digitálních objektů, ne vždy jsou tyto systémy navrženy se zřetelem na dlouhodobé uchovávání. Digitální ochrana znamená záruku trvalé použitelnosti digitálního obsahu a přístupu k němu, a to jak zítra, tak i ve značně vzdálené budoucnosti. Systémy pro správu digitálních fondů a digitální repozitáře se zaměřují na každodenní využití digitálního obsahu, zatímco systém pro digitální ochranu nabízí vedle vyhledávacích a přístupových funkcí též funkce a pracovní postupy pro vkládání, průběžnou analýzu rizik a zajištění trvalé integrity uložených dokumentů. I když se dlouhodobá ochrana soustřeďuje na management rizik, bylo by chybou ji ztotožňovat se zálohováním či záchranou dat po nehodě.
Charakteristiky systému pro digitální ochranu jsou popsány v referenčním modelu OAIS (Open Archival Information System). Tento model je v celém světě široce přijímán řídícími orgány i specialisty a je vodítkem pro hodnocení stávajících archivních i ochranných řešení. (1) Model OAIS definuje na nejvyšší úrovni šest funkcí, které musí být přítomny v každém systému pro digitální ochranu:
- Vkládání
- Uložení
- Správa dat
- Administrace
- Plánování ochrany
- Přístup
Referenční model OAIS navíc přispívá k porozumění požadovaným pracovním postupům a vymezuje terminologii. Pojmy jako SIP (submission information package), AIP (archival information package), DIP (dissemination information package), producent a uživatel by měly být součástí slovníku kohokoliv, kdo se dlouhodobou ochranou zabývá.
Šest výše popsaných funkcí je nedílnou součástí produktu Ex Libris Rosetta, který byl uvolněn v lednu 2009. Byl vyvinut ve spolupráci s Národní knihovnou Nového Zélandu a recenzován mezinárodně uznávanými odborníky na dlouhodobé uchovávání a ochranu. Cílem systému je podpora knihoven, archivů a dalších paměťových institucí při shromažďování, správě a ochraně širokého spektra digitálních objektů v nejrůznějších formátech a strukturách.
Systém Rosetta umožňuje komplexní správu digitálních entit – od vkládání po šíření. Mechanismus pracovních postupů založený na pravidlech a otevřená architektura dovolují institucím vyvíjet vlastní plug-in nástroje a jiné aplikace, které dále rozvíjejí procesy pro vkládání, správu, dlouhodobou ochranu a dodávání dokumentů a přizpůsobují je individuálním potřebám.
Tento článek popisuje klíčové otázky, které bylo třeba při vývoji systému pro digitální ochranu Ex Libris Rosetta zodpovědět.
1. Význam termínu digitální ochrana
aneb jak se neztratit v džungli definic
Definovat konečný cíl pro jakýkoliv systém dlouhodobé digitální ochrany je snadné: zajistit integritu digitálního obsahu systému a přístup k němu v průběhu času. Nicméně vlastní digitální ochranu lze definovat nejrůznějšími způsoby, jež zpravidla obsahují vymezení toho, co je pro ochranu digitálního obsahu nezbytné vyřešit. Příkladem mohou být následující úlohy:
- Obnova po nehodě: stanovení rizika nehody a způsobů obnovy po možné nehodě platí nejen pro digitální obsah, ale i pro papírové dokumenty.
- Zálohování: pravidelné zálohování obsahu nejlépe v několika kopiích uložených na různých místech umožňuje obnovu po nehodě a udržuje integritu souborů na úrovni bitů.
- Obnova médií: záznamové médium, na němž jsou uloženy jednotlivé zálohy, má omezenou životnost a je ohroženo i dalšími riziky, například ztrátou autenticity a integrity dat, jejich zničením či degradací. V nedávné studii konsorcia PrestoPRIME (v rámci projektu EU na ochranu audiovisuálního obsahu) je uvedeno více než 35 rizik ohrožujících důvěryhodné ukládání. V procesu obnovy médií mohou instituce přesouvat svůj obsah na nové datové nosiče při současném hodnocení rizik a alternativních formátů.
- Plánování ochrany: služby plánování ochrany umožňují organizacím definovat, vyhodnocovat a provádět ochranné akce, například migraci formátů a implementaci emulátorů. Využití těchto funkcí spolu s aktivní obnovou datových nosičů udržuje digitální materiál trvale přístupný.
Asociace pro knihovní sbírky a technické služby ALCTS uvádí několik definic digitální ochrany; zde je jedna z nich: „Digitální ochrana je souhrn postupů, strategií a akcí pro zabezpečení přístupu k převedenému i původnímu digitálnímu obsahu se zřetelem na možná selhání datových medií a technologické změny. Cílem digitální ochrany je přesné zobrazení autentizovaného obsahu v průběhu času.“ Tato definice říká, že digitální ochrana je spíše proces než jednorázová akce, a zároveň odkazuje na různé typy a původ materiálů – digitální od samého vzniku a dodatečně digitalizované. Ex Libris stanovila tři hlavní okruhy, jež by měly být začleněny do každé definice digitální ochrany:
- Sběr: sbírat obsah od producentů a umožňovat vkládání digitálního materiálu do systému
- Archivace: zajišťovat integritu souborů na úrovni bitů
- Aktivní ochrana: aktivně odhadovat rizika ohrožující soubory v repozitáři, soustavně vyhodnocovat cesty ke zmírnění těchto rizik a provádět akce k jejich eliminaci
V souladu se standardem OAIS nabízí Ex Libris Rosetta plánování ochrany a ochranné akce, jež umožní institucím spravovat objekty v různých digitálních formátech, zjišťovat a zmírňovat formátová rizika a provádět řadu úloh souvisejících s ochranou.
2. Datový model
aneb jak dojít k nejlepší praxi
Při tvorbě datového modelu pro systém dlouhodobé ochrany digitálních objektů je třeba věnovat pozornost několika bodům:
- Podpora struktury a metadat pro dlouhodobou digitální ochranu
- Podpora různých formátů a materiálů v rámci jednoho datového modelu
- Podpora různých typů institucí (muzea, knihovny, archivy) s vlastními nároky na digitální ochranu
- Dodržování standardů a podpora otevřenosti
Datový model Rosetty vychází z metadatových prvků pracovní skupiny PREMIS (PReservation Metadata: Implementation Strategies) a z METS (Metadata Encoding and Transmission Standard): PREMIS jakožto koncepční model vymezující entity a metadata potřebná pro dlouhodobou ochranu a METS jakožto kontejnerový formát umožňují jak zachycení struktury digitálního objektu, tak i připojení popisných a administrativních metadat.
Systém pro dlouhodobou ochranu digitálních objektů sice uchovává i popisnou informaci (metadata) o objektech, nicméně by neměl být pojímán jako primárně katalogizační systém. Rosetta využívá pro popis objektů metadatový formát Dublin Core, který však je dále rozšiřitelný, a systém by měl být v budoucnu schopen zpracovávat jak standardní metadatové formáty (např. MODS), tak i formáty proprietální.
3. Charakterizace
aneb jak identifikovat a validovat obsah pomocí nejmodernějších nástrojů
Charakterizace znamená porozumění obsahu repozitáře (jaké formáty jsou zde uloženy, v jakých verzích a pod.) a ujištění o tom, že obsah odpovídá platným standardům a není zastaralý. Vědět, co přesně instituce spravuje, je prvním krokem k ochraně; nadto žádnou ochrannou akci nelze provést bez řádných technických informací o souborech v repozitáři. Charakterizace znamená i zajištění neporušenosti obsahu (např. za pomoci kontrolního součtu) a samozřejmě i uložení těchto informací pro budoucí použití (ve formě technických metadat).
Tuto problematiku Rosetta řeší zejména prostřednictvím modulu Pracovní oblast (Working Area). Zde je pro automatickou dávkovou identifikaci objektů využíván softwarový nástroj DROID (Digital Record Object Identification) vyvinutý Národními archivy Spojeného království. K určení dalších formátů, které DROID nerozezná, Rosetta nabízí možnosti konfigurace rozhodovacích pravidel.
K charakterizaci a pro extrakci technických metadat se používají nástroje JHOVE (JSTOR/Harvard Object Validation Environment) a Metadata Extraction Tool Národní knihovny Nového Zélandu. Díky otevřené architektuře systému Rosetta je tyto nástroje možno doplnit i dalšími produkty třetích stran. Kromě extrakce je (zejména na vstupu do systému) kontrolována i konzistence a neporušenost souboru a prováděna je i antivirová kontrola.
Pro lepší využití těchto nástrojů a možnost integrace budoucích nástrojů pro extrakci a validaci vyvinula Ex Libris vysoce škálovatelnou strukturu. Rosetta navíc obsahuje pracovní oblast určenou k manuálnímu řešení konkrétních problémů, jež mohou vzniknout v procesu charakterizace.
4. Stávající infrastruktura
aneb jak nevynalézat trakař
Ve většině institucí již existuje infrastruktura pro práci s digitálními sbírkami nebo případně pro katalogizaci tištěných materiálů. Z hlediska implementace systému pro dlouhodobou ochranu zde vyvstávají tři problémy:
- systém by se neměl pokoušet nahradit všechny nástroje institucí využívané
- systém by měl být budován tak, aby byl využíván v první řadě pro dlouhodobou ochranu digitálních objektů
- vývojáři by měli zajistit, aby byl systém začlenitelný do stávající infrastruktury a schopen komunikace se stávajícím prostředím.
Jedním z vůdčích principů při budování Rosetty bylo dodržení firemní politiky otevřené architektury. Cílem bylo vytvořit sadu vývojových nástrojů SDK (Software Development Kit) pro Rosettu spolu s řadou webových služeb a aplikačních programových rozhraní API. S využitím těchto nástrojů si mohou instituce vyvíjet kompletní aplikace pro vkládání, vyhledávání a další činnosti. Systém nyní navíc obsahuje nástroj pro správu zásuvných modulů, který zjednodušuje využívání aplikací třetích stran.
5. Systém jako úzké hrdlo
aneb jak zajistit, aby informace nezůstaly v systému navždy uzamčeny
Tak jako každý jiný software, i systém pro digitální ochranu se buduje ve specifickém prostředí a se specifickými nástroji. Při návrhu před námi vyvstal i problém jak zajistit, aby se systém sám nestal úzkým hrdlem a překážkou zajištění dlouhodobého přítupu k digitálnímu obsahu. Jinými slovy – jak zabránit tomu, aby proprietární prvky Ex Libris navždy neuzamkly obsah. Ani při využití nejmodernějších technologií a nástrojů nelze zabránit zastarání systému. Tím pádem je již od samého počátku třeba pomýšlet na „únikovou“ strategii, díky které by bylo možno zaručit životnost digitálního obsahu výrazně přesahující životnost softwarového systému, ve kterém je uložen.
Rosetta tento problém řeší využitím trvalého úložiště, které je konečným cílem všech souborů systémem procházejících. Jsou zde archivovány soubory, které již prošly validací, obohacením i manuální kontrolou či zpracováním. Úložiště obsahuje nejen obsahové soubory ale i otevřený, snadno čitelný a srozumitelný XML dokument obsahující veškeré informace o souboru, včetně popisných a technických metadat, přístupových práv a záznamu historie změn objektu. Oblast trvalého uložení ve skutečnosti obsahuje úplnou replikaci všech dat využívaných systémem.
Replikace dat zajišťuje institucím zachování kontroly nad daty: pokud by Rosetta zastarala, instituce budou schopny sklidit svá data z úložiště a rekonstruovat celý obsah repozitáře. Replikace uložených dat rovněž funguje jako redundantní vrstva umožňující kompletní obnovu systému v případě fatální nehody systému nebo databáze.
Závěr
Hlavní problémy při budování systému pro dlouhodobou ochranu jsou:
- Definice digitální ochrany
- Vytvoření odpovídajícího datového modelu
- Charakterizace a identifikace digitálního obsahu
- Začlenění systému do existující infrastruktury
- Zajištění dlouhé životnosti dat i systému
I když v době, kdy jsme navrhovali systém pro digitální ochranu Rosetta, byly tyto problémy a jejich řešení klíčové, představují pouze malou část požadavků a cílů, jež jsme pro systém definovali. Technologie, změny standardů a uživatelská očekávání a požadavky přinesly řadu nových výzev, jimž bylo třeba čelit.
Nyní ve druhé velké verzi (verze 2.1 byla uvolněna v listopadu 2010) systém Rosetta od Ex Libris používá mnoho institucí po celém světě pro sběr, archivaci a dlouhodobou ochranu svých digitálních sbírek.
1Viz například zprávu Assessment of UKDA and TNA Compliance with OAIS and METS Standards.



