Technické řešení NUŠL

Základními prvky řešení NUŠL jsou Invenio pro Digitální repozitář NUŠL a indexační a vyhledávací systém Elasticsearch pro Centrální vyhledávací rozhraní NUŠL. Jednotlivé činnosti a spolupráce digitálního repozitáře v Inveniu a indexačního a vyhledávacího systému Elasticsearch jsou znázorněny ve schématu.

Centrální rozhraní NUŠL v systému Elasticsearch

Záměrem centrálního vyhledávacího rozhraní NUŠL je vytvoření integrující vyhledávací platformy repozitářů, které obsahují šedou literaturu. Tuto integrační funkci původně zajišťoval indexační a vyhledávací systém ESP FAST, který byl v roce 2016 nahrazen open source systémem Elasticsearch. Elasticsearch poskytuje zabezpečené, relevantní a škálovatelné vyhledávání nad připojenými repozitáři. Řešení vychází ze záměru zpřístupnit uživatelům jak data z digitálního repozitáře, tak data z vybraných úložišť šedé literatury v jednom interaktivním prostředí. Vyhledávání probíhá především podle navigací, které jsou podle druhu dokumentů, autorů, klíčových slov, připojených bází a nabízí se i časová osa.

Vyhledávač NUŠL

Digitální repozitář NUŠL v systému Invenio

Invenio patří mezi open source software. Je možné ho volně instalovat, používat i upravovat, což umožňuje jeho nastavení pro ukládání šedé literatury a následné šíření mezi spolupracující organizace. V pilotní fázi projektu probíhalo ladění systému na základě průběžného testování provozu systému, vkládání dat do systému a harvestování dat ze spolupracujících repozitářů. V rámci Invenia se úpravy dotkly všech jeho částí od struktury formátu, přes šablony, nastavení sbírek, až po nastavení prohlížení apod. Současně proběhla také grafická úprava rozhraní digitálního repozitáře, jeho plná lokalizace do českého jazyka a úpravy prohlížení záznamů.

Výběrové řízení

Softwarové řešení projektu NUŠL bylo vybráno na základě veřejného výběrového řízení, které proběhlo v roce 2009. Požadavky na funkcionalitu software byly definovány tak, aby zahrnovaly jak požadavky nutné pro pilotní realizaci systému, tak aby na jejich základě byla vybrána moderní a podporovaná technologie s perspektivou dalšího rozvoje.

V souvislosti s přípravou výběru software řešení pro digitální knihovnu šedé literatury byla provedena analýza vybraných „open source“ software pro digitální knihovny. Do této analýzy byly zahrnuty následující systémy: DSpace, Fedora, Invenio, Eprints a Greenstone. Výsledky analýzy naleznete v přiloženém dokumentu.

Metadata

Součástí řešení projektu byla příprava metadatového formátu přímo pro potřeby NUŠL. Na formát NUŠL jsme stanovili základní požadavky, kterými jsou jednoduchost, minimum povinných polí a respektování metadatového standardu Dublin Core. Metadatový formát NUŠL používá prvky z formátů Dublin Core, Dublin Core Terms, EVSKP-MS, EDT-MS a vlastní prvky.

Analýza a první verze formátu NUŠL byly zpracovány v roce 2008, formát pak byl podroben odborné expertize a testován na vlastních datech v NTK a VŠE. Do platné verze metadatového formátu byly promítnuty praktické zkušenosti s vkládáním metadat a plných textů do repozitáře, harvestováním metadat a souborů s plnými texty od spolupracujících institucí a požadavky na spolupráci se systémem OpenGrey. Vznikla tak již ověřená verze 1.0 metadatového formátu NUŠL.

Kvůli implementaci metadatového formátu NUŠL do vybraného SW řešení, kterým je systém Invenio, jehož nativním formátem je MARC 21, byla zpracována konverzní tabulka. Další konverzní tabulky jsou vytvářeny podle aktuálních potřeb spolupracujících institucí při harvestování metadatových záznamů a digitálních dokumentů do digitálního repozitáře NUŠL.

Identifikátory

Primárním účelem digitálních archivů je archivace digitálních informací a jejich zpřístupnění. Persistentní identifikátory zajišťují trvalost přístupu k digitálním dokumentům. Persistencí identifikátoru máme na mysli trvalost identifikace bez ohledu na trvalost identifikovaného dokumentu. Je tedy důležité, aby zdroj označený perzistentním identifikátorem nebyl nikdy přesunut nebo odstraněn, aniž by došlo k aktualizaci informací o jeho umístění v registru perzistentních identifikátorů.

Původním záměrem bylo, že v tomto poli bude uveden trvalý identifikátor typu URN:NBN, Handle, apod. V současné době však v České republice nefunguje pro šedou literaturu resolver URN:NBN, který by zprostředkoval a zajišťoval trvalé propojení mezi identifikátorem a odpovídajícím URL odkazem. Identifikátor na záznam URI je tedy generován přímo v systému Invenio ve formátu: www.nusl.cz/ntk/nusl-ID. Identifikátor reprezentuje pořadové číslo přidělené systémem.

Harvestovaným záznamům přiděluje systém Invenio identifikátor stejného formátu. V opakovaném výskytu pole dc:identifier budou uvedeny identifikační čísla přidělená lokálními repozitáři př. systémové číslo.

Rozhodovací kritéria pro výběr perzistentního identifikátoru pro NUŠL naleznete v přiloženém dokumentu. Zdroje použité k této práci jsou citovány v přiložené rešerši.

Přejít nahoru