Курација на податоци

Курација на податоците е организација и интеграција на податоците собрани од различни извори. Тоа вклучува прибелешка, објавување и презентирање на податоците така што вредноста на податоците се одржува со текот на времето, а податоците остануваат достапни за повторна употреба и зачувување. Курацијата на податоците ги вклучува „сите процеси потребни за принципиелно и контролирано создавање, одржување и управување со податоци, заедно со капацитетот за додавање вредност на податоците“.[1] Во науката, курацијата на податоците може да укаже на процес на извлекување на важни информации од научни текстови, како што се написи за истражување од експерти, да се претворат во електронски формат, како што е внесување на биолошка база на податоци.[2]

Во модерната ера на големи податоци, курацијата на податоците стана поистакната, особено за софтверска обработка со висок волумен и сложени системи на податоци.[3] Терминот се користи и во историски прилики и хуманистички науки,[4] каде што зголемувањето на културните и научните податоци од дигиталните хуманистички проекти бара експертиза и аналитички практики на курацијата на податоците.[5] Во широка смисла, курацијата значи низа активности и процеси направени за да се создаде, управува, одржува и потврдува компонента.[6] Поточно, курацијата на податоците е обид да се утврди која информација вреди да се зачува и колку долго.[7]

Историја и пракса уреди

Корисникот, наместо самата база на податоци, обично иницира курација на податоци и одржува метаподатоци. Според Факултетот за библиотека и информатика на Универзитетот во Илиноис, „Курацијата на податоците е активно и тековно управување со податоците преку својот животен циклус од интерес и корисност за стипендиите, науката и образованието; кураторските активности овозможуваат откривање и враќање на податоците, одржувајте го квалитетот, додавајте вредност и обезбедете повторна употреба со текот на времето “.[8] Работниот тек на курацијата на податоците се разликува од управувањето со квалитетот на податоците, заштитата на податоците, управувањето со животниот циклус и движењето на податоците.[9]

Податоците за пописот се достапни во форма на табеларни панч-картички од почетокот на 20 век и се електронски од 1960-тите.[10] Интер-универзитетскиот конзорциум за политички и социјални истражувања (ICPSR) ја означува 1962 година како датум на нивната прва архива на податоци од истражувањето.[11]

Длабока позадина за библиотеките со податоци се појави во издание на списанието во Илиноис, Библиотечни трендови во 1982 година.[12] За историска позадина на движењето за архивата на податоците, видете „Потреби од социјални научни информации за бројчени податоци: Еволуција на инфраструктурата за меѓународна архива на податоци“.[13] Точниот процес на курација преземен во рамките на која било организација зависи од обемот на податоци, колкава бучава содржат податоците и што значи очекуваната идна употреба на податоците за нивно ширење.[3]

Кризите во вселенските податоци доведоа до создавање на моделот Отворен архивски информативен систем (OAIS) во 1999 година,[14] управуван од Консултативниот комитет за системи за вселенски податоци (CCSDS), формиран во 1982 година.[15]

Терминот курација на податоци понекогаш се користи во контекст на биолошки бази на податоци, каде што специфичните биолошки информации прво се добиваат од низа истражувачки написи, а потоа се чуваат во одредена категорија база на податоци. На пример, информации за антидепресивни лекови може да се добијат од различни извори и, откако ќе се провери дали се достапни како база на податоци или не, тие се зачувуваат во категоријата антидепресиви во базата на податоци на лекови. Претпријатијата исто така користат податоци за курацијата во рамките на нивните оперативни и стратешки процеси за да обезбедат квалитет и точност на податоците.

Проекти и студии уреди

Проектот за дисеминација на информативни пакети (ДИПС) за повторна употреба на информациите (ДИПИР) ги проучува податоците од истражувањето произведени и користени од квантитативни социјални научници, археолози и зоолози Наменетата публика е истражувачи кои користат секундарни податоци и дигитални куратори, менаџери за дигитални складишта, вработени во центарот за податоци и други кои собираат, управуваат и чуваат дигитални информации.[16]

Анкетата за дигитално небо на Слоун започна да го испитува ноќното небо во 2000 година.[17] Компјутерскиот научник Jimим Греј, додека работел на архитектурата на податоците на SDSS, се залагал за идејата за куратор на податоци во науките.[18]

DataNet беше програма за истражување на Канцеларијата за компјутерска инфраструктура на Националната фондација за наука на САД, која финансираше проекти за управување со податоци во науките.[19] DataONE (мрежа за набудување на податоци за Земјата) е еден од проектите финансирани преку DataNet, помагајќи им на заедницата за наука за животната средина да ги зачува и споделува податоците.[20]

Поврзано уреди

  • Биокуратор
  • Археологија на податоци
  • Деградација на податоците
  • Управување со формат на податоци
  • Зачувување на податоци
  • Управување со податоци
  • Расправија со податоците
  • Дигитална курација – курацијата на објавените документи, наместо необработените податоци [7]
  • Дигитално зачувување
  • Информатичар – поединец со голема експертиза во курацијата на податоците

Наводи уреди

  1. Renée J. Miller, “Big Data Curation” in 20th International Conference on Management of Data (COMAD) 2014, Hyderabad, India, December 17–19, 2014
  2. Bio creative Glossary. Retrieved on 3 October 2016.
  3. 3,0 3,1 Furht, Borko; Armando Escalante (2011). Handbook of Data Intensive Computing. Springer Science & Business Media. стр. 32. ISBN 9781461414155. Посетено на 2 October 2016.
  4. Sabharwal, Arjun (2015). Digital Curation in the Digital Humanities: Preserving and Promoting Archival and Special Collections. Chandos Publishing. стр. 60. ISBN 9780081001783. Посетено на 2 October 2016.
  5. "An Introduction to Humanities Data Curation" by Julia Flanders and Trevor Muñoz http://guide.dhcuration.org/intro/. Not available any more: archive.org
  6. Pilin Glossary. Not available any more: archive.org
  7. 7,0 7,1 Borgman, C (2015). Big data, little data, no data: Scholarship in the networked world. Cambridge, Massachusetts: MIT Press. стр. 13. ISBN 978-0-262-02856-1.
  8. Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L.; Smith, Linda C. (2007). „An Educational Program on Data Curation“. ALA Science & Technology Section Conference. Посетено на 7 October 2013.
  9. Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). Designing and Operating a Data Reservoir. IBM Redbooks. стр. 111–113. ISBN 9780837440668. Посетено на 2 October 2016.
  10. „Preserving Digital Information (PDI) report“ (PDF). 1996. Посетено на 2018-03-13.
  11. „ICPSR: History“. www.icpsr.umich.edu (англиски). Посетено на 2018-03-15.
  12. Heim, Kathleen M. (editor), Library Trends 30 (3) Winter 1982: Data Libraries for the Social Sciences. Graduate School of Library and Information Science. University of Illinois at Urbana-Champaign.
  13. Kathleen M. Heim, "Social Scientific Information Needs for Numeric Data: The Evolution of the International Data Archive Infrastructure." in Collection Management 9 (Spring 1987): 1-53.
  14. „The OAIS reference model“ (англиски). 2015-12-09. Посетено на 2018-03-15.
  15. „CCSDS.org - The Consultative Committee for Space Data Systems (CCSDS)“. public.ccsds.org. Посетено на 2018-03-14.
  16. Dissemination Information Packages for Information Reuse (DIPIR) project http://www.oclc.org/research/themes/user-studies/dipir.html
  17. „Sloan Digital Sky Survey“. SDSS. Посетено на 15 March 2018.
  18. Palmer, Carol L.; Weber, Nicholas M.; Muñoz, Trevor; Renear, Allen H. (June 2013). „Foundations of Data Curation: The Pedagogy and Practice of "Purposeful Work" with Research Data“. Archive Journal. 3.
  19. „Sustainable Digital Data Preservation and Access Network Partners (DataNet) Program Summary“. National Science Foundation. September 28, 2007. Посетено на March 15, 2018.
  20. „What is DataONE?“. What is DataONE?. Архивирано од изворникот на 2019-04-26. Посетено на 15 March 2018.

Надворешни врски уреди

  • Курација на еколошки и еколошки податоци: DataONE
  • Алатки и услуги за управување со податоци опфатени повеќе научни дисциплини: Конзервација на податоци