Přeskočit na obsah

Management dat

Z Wikipedie, otevřené encyklopedie

Management dat neboli správa dat (anglicky data management) je soubor teoretických a praktických disciplín, které se věnují zacházení s daty či informacemi jako s cenným zdrojem. K dílčím oblastem patří například datové kurátorství (data curation) nebo správa výzkumných data (research data management, akronym RDM[1][2]). Obecně jde o procesy nakládaní s daty (případně ve velkém množství a různorodé struktuře, viz Big Data),[3][4] dále uchovávání a skladování takovýchto dat, tvorbu a správu metadat, tvorbu vztahů mezi daty a jejich dohledání, případně sdílení.[3][4][5] Do správy dat lze také zařadit tvorbu a správu informační infrastruktury.[5] V poslední době je ve správě vědeckých dat kladen důraz na FAIR principy.

S příchodem digitálních dat se radikálně mění velikost a objem vytvořených informací. Ačkoliv tvorba takovýchto dat je jednodušší oproti předchozím způsobům,[4] zároveň se stále větší popularitou se začaly objevovat i nedostatky. S narůstajícím objemem digitálních dat začaly přibývat problémy.[3] Chyběl plán, jak nakládat s tak velikým množstvím dat,[5] a také existoval tlak na dostupnost pro další uživatele.[3] Tato krize vyústila v potřebu vytvořit plán a metodiku, jakým způsobem nakládat s nově vytvořenými daty, jak je identifikovat, jak je charakterizovat, jak je uchovávat, jak je zpřístupňovat.[3][4] Správa dat, ačkoliv se jedná o poměrně novou metodu nakládání s digitálními daty,[3] se stala důležitou součástí výzkumu nejen pro výzkumníky, ale i pro knihovníky a vědecké instituce.[4][5] Další výhody jsou také integrita sesbíraných dat, lepší a rychlejší zpřístupnění dat odborné veřejnosti a úspora času a financí. Navíc i dnešní požadavky grantových agentur už počítají s tím, že vědec bude data takto zpracovávat. Samozřejmě taková data jsou přístupnější pro veřejnost a propagaci nejnovějších poznatků.[6]

Oblasti správy dat

[editovat | editovat zdroj]

Termín správa dat zastupuje velmi širokou oblast nakládání s daty od přípravy sběru dat, daty právě používanými i s daty již archivovanými a vědec by měl se důsledně proces naplňovat od začátku výzkumu až do jeho konce.[5] Tento proces pro větší přehlednost lze rozdělit na několik podprocesů:[7]

Všechny tyto body by v ideálním případě měly být vyjasněny a připraveny ještě před tím, než se začne s tvorbou dat. Samozřejmě se může při výzkumu přijít na nedostatky vytvořeného procesu a spíše se v průběhu práce celý proces optimalizuje. Přesto taková příprava, když při sbírání dat je už připravena infrastruktura a podpora, velmi urychluje a zjednodušuje samotný počátek procesu zpracování.[3]

Tvorba plánu, metodiky

[editovat | editovat zdroj]

Při práci s daty je nejdříve třeba vyjasnit, o jaká data má jít, zamyslet se nad etickými a právními problémy a jaké bude potřeba vytvořit zázemí pro nakládání s daty, jaký má být výstup, komu mají být přístupná, jaká je existující informační infrastruktura, kdo bude participovat na systému personálně, jak se budou skladovat a tak podobně.[3][5] V této části se tak plánuje samotná podstata a účel takové logistiky, probíhají data management interview s vědci, připravuje se informační infrastruktura, tvoří se checklisty a řeší se problémy spjaté s jejím fungováním a to do nejmenších detailů.[5][1] Jakákoliv opomenutá část projektu může způsobit potíže při výsledném fungování, což může způsobit vedlejší náklady. Krier se Strasserem uvádějí několik motivačních argumentů pro tvorbu kvalitního plánu jako například podpora, rozdělení rolí v projektu, zodpovědnost, šetření času, či zabránění úniku dat mimo vědecký tým.[3][5] Na plánu by měli participovat všichni, kteří později přijdou s daným systémem do styku.[3] Plán správy dat je v podstatě dokument, který se postupně aktualizuje v průběhu procesu vytváření dat, ve zkratce můžeme říct, že reflektuje to, co se s daty stalo. Mezi jeho výhody patří zajištění, že data jsou spolehlivá, úplná, relevantní a bezpečná. Další výhodou je kontrola procesu z pohledu sběru a zpracování dat, teda data nejsou duplicitná, nedochází ke ztrátám dat nebo k narušení bezpečnosti. Největší výhodou je ušetření času a energie například při znovuvytváření dat.

Metadata se užívají pro charakteristiku a popis spravovaných dat. To je velmi důležité pro následné vyhledávání digitálních dat, také pozdější uživatel může díky nim lépe porozumět těmto datům. Dále pro badatele-kolegy pomáhají k rychlejší orientaci a pro autory jednodušší nakládání s vytvořenými daty.[3] Pro pracovníky informační infrastruktury (například knihovníky) jsou metadata a dokumentace k datům klíčová při organizaci a archivaci.20[5] Tato dokumentace by měla být vytvořena nejlépe ihned v průběhu tvorby dat a spárována s nimi po celou dobu životního cyklu dat.[3] Metadata se rozdělují na strukturální, administrativní a deskriptivní. Strukturální data popisují formu digitálních dat. Administrativní data obsahují velikost dat, práva k přístupu i práva autorská a kdy byla vytvořena digitální data. Zaznamenávají také veškeré změny v digitálních datech a kdo je zodpovědný za ony změny, dále formát digitálních dat, čímž napomáhá k transparentnímu zacházení a vedou k co nejmenší editaci dat. Deskriptivní data popisují data samotná i jejich části, jak byla vytvořena. Dále popisují, odkud data pochází, co reprezentují. Také obsahují identifikátor autora i samotné práce, její název, kdo na nich kolaboroval, v jaké instituci byla vytvořena a jaká je to verze. Popisují také elementární části sesbírané jednotlivými participanty výzkumu a udržují soubor pohromadě.[5]

Přístup a právní rámec

[editovat | editovat zdroj]

V dnešní době je vyvíjen na výzkumníky i na správce dat tlak data učinit přístupná veřejnosti. Nárokovat si přístup k datům nemusí jen akademická obec a účastníci výzkumu, ale i široká veřejnost.[5] S tím se však pojí problémy vlastnictví dat i ochrany soukromí. Některá data totiž mohou obsahovat citlivé osobní údaje, tajné vládní projekty, či data patřící třetím stranám a logistika takových dat je nutně determinována takovými omezeními.[3] Všichni ve vědeckém týmu musí být velmi pečliví s nakládáním citlivých dat.[5] Je třeba se před zahájením projektu vypořádávat s odlišnými požadavky na jednotlivá data. Při procesu vzniku dat však badatel není solitérem, jeho výzkum může být redigován od kolegů na katedře, institucí, kde se data získávají a zpracovávají, až po donátora finančních prostředků přes grant. Všichni mají nějaký přístup k datům a různé právo s nimi nakládat.[3][5] S jednotlivými právními nároky se lze vypořádat různými způsoby, jako je například druh licence.[3][5]

Aby mohla být data přístupná, měl by k nim být přiřazen unikátní perzistentní mezinárodní identifikátor, který umožní snadnější citování, jasnou identifikaci práce i organizaci. V neposlední řadě také může být takový identifikátor interaktivní a umožní tím přístup k umístění dat, či dokonce samotná data.[3][5] Zjednodušeně lze data rozdělit do škály od otevřených, někomu otevřená až po nepřístupná. Otevřená data jsou taková data, která jsou úplná, přístupná pro veřejnost za předem stanovených podmínek a dostupná bez větších překážek. Taková data se tak rychleji dostávají do povědomí, veřejnost je tak může ve velkém množství citovat, což napomáhá zpět tvůrcům v jejich kredibilitě v podobě zaznamenaných citací. Nepřístupná data naopak znemožňují otevřený přístup a to například z důvodů citlivých dat, podmínek licence, bezpečnosti a dalších.[5]

Schéma životního cyklu dat.

Na konci životního cyklu, kdy data byla sesbírána, roztříděna, byla k nim pořízena dokumentace a nakonec zpřístupněna, následuje fáze uskladnění takových dat pro pozdější užití. Nakládání s daty lze nahlížet dvojí perspektivou. První je pohled na data krátkodobou perspektivou a druhý je pohled s perspektivou dlouhodobou.[5] Každá část vyžaduje jiné prostředky podpory a jiné nároky na infrastrukturu. Pro obě části však platí následné skutečnosti. Archivace dat má napomáhat nejen uchování dat, ale také jejich snadnému nalezení a přístupnosti. Před jejich archivací musí být vyjasněno, kde se budou data ukládat, jakým způsobem, jaké jsou podmínky grantu pro jejich následné zpracování a jaká data se budou ukládat, neboť i uchovávání archivovaných dat je finančně náročné.[5] Krátkodobé skladování dat se provádí pro dočasné uložení těchto dat, která jsou ukládána pro potřeby ještě probíhajícího projektu. Kdežto dlouhodobá archivace se provádí u dat z již ukončených projektů.[3] U krátkodobého skladování je důležitá volba úložiště, aby bylo dostatečně zabezpečeno před technickými výpadky i neoprávněným vstupem třetích osob a také dostupnost pro kolegy participujícími na projektu. U dlouhodobého skladování se kromě výše uvedených také dbá přístup pro veřejnost i tvorbu administrativních metadat pro snadnější vyhledávání v repozitáři.[3][5]

CESSDA Management výzkumných dat

[editovat | editovat zdroj]

CESSDA (Consortium of European Social Science Data Archives) je konsorcium, které pomáhá výzkumníkům v sociálních vědách v oblasti data managementu výzkumných dat. V roce 2017 CESSDA vydalo příručku ke správě dat se zaměřením na sociálněvědní obory, v roce 2019 byla doplněna o aktuální informace z oblasti zpracování výzkumných dat. Současná verze se skládá ze 7 kapitol, které postupně prochází životním cyklem výzkumných dat – plánování, organizace a dokumentace, zpracování, ukládání, ochrana, archivování a opětovné využití.[8] Kurz vysvětluje, jak pracovat s daty, jak je organizovat a strukturovat v průběhu celého výzkumného procesu. Aby byl výzkum efektivní, je třeba mít dobře zdokumentovaný a strukturovaný proces zpracování výzkumných dat.

Přednosti managementu výzkumných dat jsou: možnost jednoduše najít potřebná data a porozumět jim, zvýšit dosah, potenciál a znovu využití dat, možnost reprodukce výzkumu s využitím již sesbíraných dat.[8] Důležitá je zde zmínka o data management plánu. Data Management Plan (DMP) přináší pro výzkumníky hodnotu ve více ohledech:[8]

  • Užitečný nástroj pro plánování aktivit ve výzkumu – pomáhá plánovat zdroje, nástroje, které slouží pro analýzu a zpracování dat
  • Usnadňuje projektový management – třídí informace, které se týkají projektu, zjednodušuje práci s daty tím, že shromažďuje všechny výzkumné otázky na jedno místo. Pomáhá tak lépe získat kontrolu nad daty. Zahrnuje také administrativní údaje jako jsou řešitel, členové týmu, informace o tom, která instituce je vlastníkem dat, registrační čísla (pod kterými je projekt vedený), zejména pro potřeby financování, schválení etické komise (pokud to povaha výzkumu vyžaduje).
  • Pomáhá vydefinovat rozpočet – data management výzkumných dat není zdarma, proto je potřeba přemýšlet i nad přerozdělením finančních zdrojů. Plán v tomto případě může pomoct při žádosti o grant nebo financování projektu. Součástí grantové žádosti obvykle bývají informace jako čas a zdroje určené pro sběr, analýzu a vyhodnocení dat.
  • Poukazuje na odpovědné chování – zejména vůči jiným spolupracujícím institucím a odpovědnému nakládání s financemi získanými z grantů nebo fondů.[8]

Literatura

[editovat | editovat zdroj]
  1. BRINEY, Kristin; COATES, Heather; GOBEN, Abigail. Foundational Practices of Research Data Management. Research Ideas and Outcomes. 2020-07-27, roč. 6, s. e56508. Dostupné online [cit. 2022-01-21]. ISSN 2367-7163. DOI 10.3897/rio.6.e56508. (anglicky)
  2. JONES, Sarah; PERGL, Robert; HOOFT, Rob. Data Management Planning: How Requirements and Solutions are Beginning to Converge. Data Intelligence. 2020-01-01, roč. 2, čís. 1-2, s. 208–219. Dostupné online [cit. 2022-01-21]. ISSN 2641-435X. DOI 10.1162/dint_a_00043.
  3. Management výzkumných dat. Centrum pro podporu open science [online]. [cit. 2022-01-21]. Dostupné online. (česky)
  4. What Is Data Management? | Definition, Importance, & Processes | SAP Insights. SAP [online]. [cit. 2022-01-21]. Dostupné online. (anglicky)
  1. KTD - Úplné zobrazení záznamu. aleph.nkp.cz [online]. [cit. 2021-12-14]. Dostupné online. 
  2. Data Management Plans | U.S. Geological Survey. www.usgs.gov [online]. [cit. 2021-12-14]. Dostupné online. 
  3. a b c d e f g h i j k l m n o p q r BRINEY, Kristin. Data management for researchers : organize, maintain and share your data for research success. Exeter, UK: [s.n.] x, 191 s. ISBN 978-1-78427-011-7, ISBN 1-78427-011-3. OCLC 921133380 S. 12–136. 
  4. a b c d e RAY, Joyce. Research data management. West Lafayette, Indiana: Purdue University Press, 2014. 448 s. ISBN 1-4619-5681-1. S. 1–21. 
  5. a b c d e f g h i j k l m n o p q r s STRASSER, Carly; KRIER, Laura. Data Management for Libraries: A LITA Guide. Chicago: American Library Association, 2014. 112 s. Dostupné online. ISBN 1555709699. S. 4–77. 
  6. Why manage & share your data? | Data management. libraries.mit.edu [online]. [cit. 2022-01-21]. Dostupné online. (anglicky) 
  7. HIRES, Will. Data Lifecycle Management: What Has Got to Give. Příprava vydání Beth R. Bernhardt, Leah H. Hinds, Katina P. Strauch. [s.l.]: Purdue University Press 397–400 s. (Charleston Conference Proceedings, 2011). Dostupné online. ISBN 978-0-9834043-2-3. S. 400. DOI: 10.2307/j.ctt6wq4sf.69. 
  8. a b c d CESSDA TRAINING TEAM. CESSDA Data Management Expert Guide. zenodo.org. 2020-01-31, s. 9–12. Dostupné online [cit. 2021-12-14]. DOI 10.5281/ZENODO.3820473. 

Externí odkazy

[editovat | editovat zdroj]