V kroku Úpravy datasetu nebo oprava dat (formátové migrace, další reprezentace) je třeba porovnat datové formáty souborů v datasetu s formátovými pravidly NA. Dále je třeba zkontrolovat, aby se jednalo o formáty interoperabilní, opakovaně použitelné, vhodné pro trvalé uchování a pokud možno otevřené. (Jedná se především o XML, JSON, CSV, SIARD, GML, GeoJSON, KML, Geopackage.) Mezi běžné kroky ÚPRAVY patří:

  • Identifikace specializovaných formátů souborů (automaticky provádí NArP) a s nimi spojená omezení (např. Je software volně dostupný? Pokud ano, uveďte jej v rámci metadatového popisu).
  • Datové formáty, které jsou pro Vás neznámé ověřte ve Formátových pravidlech Částka 7/2020 - Národní archiv (nacr.cz).
  • Uvažte doplnění další datové reprezentace, pokud jsou originální data v nevhodném datovém formátu. I jednoduchý obrázek, jak data vykreslí software původce, je z dlouhodobého hlediska důležitý.
  • Vždy zachovejte původní formáty souborů, provádí-li migraci archivář (v prostředí NArP/NDA).
  • Zvažte, jak nejlépe metadatově nastavit omezení rozsahu přístupu k datům s ohledem na licence nebo vlastnictví dat pro budoucí zpřístupnění.
  • Rozhodněte, jak vyvážit potenciální přínosy transformace s riziky chyb a ztráty obsahu/kontextu, zejména pokud bude transformaci provádět archivář nebo úložiště. Rozhodnutí zdokumentujte. (Např. formát jsem vyhodnotil/a jako rizikový, provedena migrace do nové reprezentace/vyžádáno doplnění atp.)

Základní úkoly:

  • Zkontrolujte, zda se ve výběru nacházejí data ve výstupním nebo alespoň v akceptovaném formátu pro trvalé uložení v digitálním archivu.
    • Pokud ne, doporučte původci konverzi s pomocí Formátová pravidla NA nebo žádejte alespoň zobrazení, jak si data zobrazuje původce (obrázek, PDF atp.) v případě že migrace dat už není možná. Pokud není migrace možná a je pro původce problém vytvořit i reprezentaci dat v podobě jednoduchého zobrazení, uvažte, zda má vůbec smysl data trvale uložit.
    • Pokud ano, ponechte.
  • Zkontrolujte, zda je potřebný software snadno dostupný.
    • Navrhnout možnosti open source, pokud je to vhodné a účelné.
    • Pokud ne, zajistěte dokumentaci originálního softwaru a jeho verze.
  • Převést všechny vizualizace dat, které nejsou přístupné (např. vizualizace v jazyce R, které je třeba převést pro použití čtečky obrazovky, nebo vizualizace, které nesplňují pokyny pro kontrast barev).
  • Reorganizace souborů podle potřeby.
  • Standardizace názvů souborů.
  • Zaznamenejte všechny transformace do Postupu archiváře.