Krok 2.: Porozumění datům
Požadavky na absolvování
V kroku Porozumění datům podrobně prozkoumejte dataset, abyste pochopili, co je to za dataset, jak spolu soubory souvisejí a jaké informace je třeba znovu použít.
Mezi běžné kroky porozumění patří:
- Kontrola zajištění kvality a použitelnosti, jako jsou chybějící data, nejednoznačné nadpisy, chyby při provádění kódu a problémy s prezentací dat. Dle schopností a znalostí archiváře.
- Pokusit se odhalit a extrahovat veškerou "skrytou dokumentaci", která je součástí datových souborů a která může usnadnit opakované použití nebo odhalit nezamýšlené informace.
- Určit, zda je dokumentace dat dostatečná, aby uživatel s podobnou kvalifikací, jakou má původce/tvůrce dat, mohl data pochopit a znovu použít. Pokud ne, doporučte nebo vytvořte další dokumentaci (např. šablonu readme.txt).
Klíčové aspekty zpřístupnění:
- Pokud pracujete s údaji o fyzických osobách, ověřte, zda jsou obsahem i citlivé osobní údaje, které nemohou být přístupné.
- Pokud ano, doplňte tuto skutečnost do metadat včetně doporučené lhůty délky omezení přístupu. Do Kroků archiváře poznamenejte, které citlivé údaje mají být redigovány v případě žádosti o zpřístupnění anonymizované podoby.
Základní úkoly :
- Důkladněji prozkoumejte soubory, organizaci a dokumentaci. Existují změny, které by mohly sestavu dat vylepšit? Které umožní lepší pochopení a přehlednost z dlouhodobého horizontu?
- Chybí Vám nějaké údaje? Pokud ano, co Vám pomůže dataset lépe popsat nebo pochopit?
- Mohl by badatel s podobnými znalostmi a schopnostmi jako má původce/autor, porozumět těmto údajům, znovu je použít a reprodukovat výsledky?
- Je schopen porozumět obsahu datasetu badatel s nižší úrovní znalostí a schopností, než měl jeho původce/autor? Alespoň na základě přiložené dokumentace?
- Jsou data, dokumentace a/nebo metadata prezentovány způsobem, který usnadňuje interpretaci (např. readme/cti_mne atp.)?
- Zaznamenávejte všechny dotazy a připomínky do Kroků archiváře.
Úkoly se liší podle formátů souborů a tematické oblasti. Vzorové úlohy podle formátu:
1. Tabulková data (např. Microsoft Excel, CSV) - otázky:
- Zkontrolujte uspořádání souborů s daty – jsou ve srozumitelné adresářové struktuře
- Jsou záhlaví/kódy jasně definovány? Hlavičky sloupců mohou být uvedeny přímo v tabulce nebo např. v přiložené dokumentaci nebo metadatových souborech.
- Obsahují hlavičky sloupců mezery nebo diakritiku, které jsou z pohledu digitální archivace nežádoucí?
- Je jasně definována kontrola kvality dat?
- Jaké je využito kódování? Digitální archiv důrazně doporučuje je utf-8.
- V případě jiného kódování, proběhne/proběhl převod do utf-8 v pořádku bez datové ztráty u diakritických znaků a výsledek je lidsky srozumitelný? Strukturovaná data v textové podobě jsou vždy kódována do znakové sady, dle vyhlášky je vyžadováno kódování utf-8, lze se ale setkat s utf-16, win-1250 aj., pro ověření využijte např. Notepad++.
- Jsou přiložená metadata a metodiky jasné a dostatečné? Archivář by měl být schopen určit, které komponenty v datasetu jsou metadata a které dokumentací a zda je z nich možné určit, co původní systém dělal, k čemu se užíval atp.
2. Databáze - otázky:
- Existuje dokumentace k tabulkám, vztahům, dotazům atd.?
- Lze data snadno exportovat (do formátu CSV, TXT nebo jiného)?
- Které tabulky nebo dotazy jsou pro zpřístupnění relevantní?
- Lze snadno rozpoznat datové tabulky (tzv. rozkladné) a jejich číselníky?
- Jsou přiloženy dotazy SELECT? Minimálně je vyžadován dotaz SELECT, který vrací seznam entit v databázi a SELECT, který vrací informace o detailu entity. Dotazy SELECT jsou standard při práci s databázemi a vrací informace v lidsky srozumitelné podobě, např. množinu informací, která se propisuje do šablon, detail zboží v e-shopu atd.
- Proběhne validace SIARD úspěšně?
- Jsou součástí přiložené dokumentace uživatelské manuály, snímky obrazovek originálního systému?
3. Prostorová data - otázky:
- Je z dokumentace zřejmý využitý souřadnicový systém? S prostorovými daty se zpravidla pracuje v souřadnicovém systému (projekce Země na plochu kvůli přesnosti a měření). Pro ČR je závazný S-JTSK, EPSG 5514, ale např. data poskytována v rámci evr. standardu INSPIRE mohou být v souřadnicových systémech WGS 84 EPSG 4326, WGS 84 EPSG 3857, EPSG 3035 LAEA Europe.
- V případě, že jsou data ve formátu GeoJSON, je souřadnicový systém WGS84(EPSG 4326) vyžadovaný mezinárodním standardem?
- Je přiloženo v rámci dokumentace statické rastrové zobrazení dat (např. PDF, JPEG) zobrazující podobu vektorového modelu?
- Mají všechny datové soubory GML přiloženo své schéma XSD?
- Obsahují metadata vazbu na související legislativu, licenci, popř. je součástí dokumentace smlouva mezi tvůrcem dat a původcem?
- Jdou prostorová data načíst pomocí software (např. QGIS)?
4. Kód - otázky:
- Provede se zadaný kód bez chyb? Samozřejmě dle schopností a znalostí archiváře.
- Je kód okomentován, tj. uvedl autor popisné informace k částem kódu?
- Chybí údaje pro vstup? Jsou zaznamenány podmínky a parametry prostředí? Je zřejmé, který jazyk/jazyky a verze jsou použity?
- Používá kód absolutní nebo relativní cesty? Pokud absolutní cesty, je to zdokumentováno v readme?
- Používají se balíčky nebo další knihovny? Pokud ano, je to uvedeno s jasnými pokyny k použití?
- Je uvedeno, zda má původce v úmyslu, aby uživatelé mohli kód spustit a reprodukovat výsledky, nebo jen vidět použitý postup?
Chcete-li zobrazit další kroky programu Porozumění podle formátu, prohlédněte si následující podklady:
- 3DPM – 3D data CAD aj.
- Acrobat PDF – základní informace o PDF
- Esri Geodatabase – základní informace o Esri Geodatabase
- Esri Shapefile – Informace o formátu Esri Shapefile
- GeoJSON – Informace o formátu GeoJSON
- Geopackage – Informace o formátu Geopackage
- GML – Informace o formátu GML
- JSON – Informace o výměnném formátu JSON
- Jupyter Notebook – Informace o digitálních objektech typu Jupyter Notebook
- Microsoft Access – informace o databázích vytvořených v MS Access
- Microsoft Excel/CSV – informace o tabulkových datech
- Python – informace o jazyce Python
- SPSS – statistická data
- STL - 3D data
- R – soubory v jazyce R (digitální dvojčata atp.)
- Wordpress.com – informace o webech vytvořený pomocí Wordpress
- SIARD – informace o formátu SIARD
- XML – Informace o výměnném formátu XML