V kroku Porozumění datům podrobně prozkoumejte dataset, abyste pochopili, co je to za dataset, jak spolu soubory souvisejí a jaké informace je třeba znovu použít.

Mezi běžné kroky porozumění patří:

  • Kontrola zajištění kvality a použitelnosti, jako jsou chybějící data, nejednoznačné nadpisy, chyby při provádění kódu a problémy s prezentací dat. Dle schopností a znalostí archiváře.
  • Pokusit se odhalit a extrahovat veškerou "skrytou dokumentaci", která je součástí datových souborů a která může usnadnit opakované použití nebo odhalit nezamýšlené informace.
  • Určit, zda je dokumentace dat dostatečná, aby uživatel s podobnou kvalifikací, jakou má původce/tvůrce dat, mohl data pochopit a znovu použít. Pokud ne, doporučte nebo vytvořte další dokumentaci (např. šablonu readme.txt).

Klíčové aspekty zpřístupnění:

  • Pokud pracujete s údaji o fyzických osobách, ověřte, zda jsou obsahem i citlivé osobní údaje, které nemohou být přístupné.
  • Pokud ano, doplňte tuto skutečnost do metadat včetně doporučené lhůty délky omezení přístupu. Do Kroků archiváře poznamenejte, které citlivé údaje mají být redigovány v případě žádosti o zpřístupnění anonymizované podoby.

Základní úkoly :

  • Důkladněji prozkoumejte soubory, organizaci a dokumentaci. Existují změny, které by mohly sestavu dat vylepšit? Které umožní lepší pochopení a přehlednost z dlouhodobého horizontu?
  • Chybí Vám nějaké údaje? Pokud ano, co Vám pomůže dataset lépe popsat nebo pochopit?
  • Mohl by badatel s podobnými znalostmi a schopnostmi jako má původce/autor, porozumět těmto údajům, znovu je použít a reprodukovat výsledky?
  • Je schopen porozumět obsahu datasetu badatel s nižší úrovní znalostí a schopností, než měl jeho původce/autor? Alespoň na základě přiložené dokumentace?
  • Jsou data, dokumentace a/nebo metadata prezentovány způsobem, který usnadňuje interpretaci (např. readme/cti_mne atp.)?
  • Zaznamenávejte všechny dotazy a připomínky do Kroků archiváře.

Úkoly se liší podle formátů souborů a tematické oblasti. Vzorové úlohy podle formátu:

1. Tabulková data (např. Microsoft Excel, CSV) - otázky:

  • Zkontrolujte uspořádání souborů s daty – jsou ve srozumitelné adresářové struktuře
  • Jsou záhlaví/kódy jasně definovány? Hlavičky sloupců mohou být uvedeny přímo v tabulce nebo např. v přiložené dokumentaci nebo metadatových souborech.
  • Obsahují hlavičky sloupců mezery nebo diakritiku, které jsou z pohledu digitální archivace nežádoucí?
  • Je jasně definována kontrola kvality dat?
  • Jaké je využito kódování? Digitální archiv důrazně doporučuje je utf-8.
  • V případě jiného kódování, proběhne/proběhl převod do utf-8 v pořádku bez datové ztráty u diakritických znaků a výsledek je lidsky srozumitelný? Strukturovaná data v textové podobě jsou vždy kódována do znakové sady, dle vyhlášky je vyžadováno kódování utf-8, lze se ale setkat s utf-16, win-1250 aj., pro ověření využijte např. Notepad++.
  • Jsou přiložená metadata a metodiky jasné a dostatečné? Archivář by měl být schopen určit, které komponenty v datasetu jsou metadata a které dokumentací a zda je z nich možné určit, co původní systém dělal, k čemu se užíval atp.

2. Databáze - otázky:

  • Existuje dokumentace k tabulkám, vztahům, dotazům atd.?
  • Lze data snadno exportovat (do formátu CSV, TXT nebo jiného)?
  • Které tabulky nebo dotazy jsou pro zpřístupnění relevantní?
  • Lze snadno rozpoznat datové tabulky (tzv. rozkladné) a jejich číselníky?
  • Jsou přiloženy dotazy SELECT? Minimálně je vyžadován dotaz SELECT, který vrací seznam entit v databázi a SELECT, který vrací informace o detailu entity. Dotazy SELECT jsou standard při práci s databázemi a vrací informace v lidsky srozumitelné podobě, např. množinu informací, která se propisuje do šablon, detail zboží v e-shopu atd.
  • Proběhne validace SIARD úspěšně?
  • Jsou součástí přiložené dokumentace uživatelské manuály, snímky obrazovek originálního systému?

3. Prostorová data - otázky:

  • Je z dokumentace zřejmý využitý souřadnicový systém? S prostorovými daty se zpravidla pracuje v souřadnicovém systému (projekce Země na plochu kvůli přesnosti a měření). Pro ČR je závazný S-JTSK, EPSG 5514, ale např. data poskytována v rámci evr. standardu INSPIRE mohou být v souřadnicových systémech WGS 84 EPSG 4326, WGS 84 EPSG 3857, EPSG 3035 LAEA Europe.
  • V případě, že jsou data ve formátu GeoJSON, je souřadnicový systém WGS84(EPSG 4326) vyžadovaný mezinárodním standardem?
  • Je přiloženo v rámci dokumentace statické rastrové zobrazení dat (např. PDF, JPEG) zobrazující podobu vektorového modelu?
  • Mají všechny datové soubory GML přiloženo své schéma XSD?
  • Obsahují metadata vazbu na související legislativu, licenci, popř. je součástí dokumentace smlouva mezi tvůrcem dat a původcem?
  • Jdou prostorová data načíst pomocí software (např. QGIS)?

4. Kód - otázky:

  • Provede se zadaný kód bez chyb? Samozřejmě dle schopností a znalostí archiváře.
  • Je kód okomentován, tj. uvedl autor popisné informace k částem kódu?
  • Chybí údaje pro vstup? Jsou zaznamenány podmínky a parametry prostředí? Je zřejmé, který jazyk/jazyky a verze jsou použity?
  • Používá kód absolutní nebo relativní cesty? Pokud absolutní cesty, je to zdokumentováno v readme?
  • Používají se balíčky nebo další knihovny? Pokud ano, je to uvedeno s jasnými pokyny k použití?
  • Je uvedeno, zda má původce v úmyslu, aby uživatelé mohli kód spustit a reprodukovat výsledky, nebo jen vidět použitý postup?

Chcete-li zobrazit další kroky programu Porozumění podle formátu, prohlédněte si následující podklady:

  • 3DPM – 3D data CAD aj.
  • Acrobat PDF – základní informace o PDF
  • Esri Geodatabase – základní informace o Esri Geodatabase
  • Esri Shapefile – Informace o formátu Esri Shapefile
  • GeoJSON – Informace o formátu GeoJSON
  • Geopackage – Informace o formátu Geopackage
  • GML – Informace o formátu GML
  • JSON – Informace o výměnném formátu JSON
  • Jupyter Notebook – Informace o digitálních objektech typu Jupyter Notebook
  • Microsoft Access – informace o databázích vytvořených v MS Access
  • Microsoft Excel/CSV – informace o tabulkových datech
  • Python – informace o jazyce Python
  • SPSS – statistická data
  • STL - 3D data
  • R – soubory v jazyce R (digitální dvojčata atp.)
  • Wordpress.com – informace o webech vytvořený pomocí Wordpress
  • SIARD – informace o formátu SIARD
  • XML – Informace o výměnném formátu XML