Наука за податоците

Науката за податоците — меѓудисциплинарна област која користи научни методи, постапки, алгоритми и системи за да извлече знаење и корисни информации од многу структурирани и неструктурирани податоци.[1][2] Науката за податоците е поврзана со податочно рударење (анг. data mining), машинско учење и големи збирови на податоци (анг. big data).

Науката за податоците е „концепт кој ги обединува дисциплините: статистика, анализа на податоци и нивните сродни методи“ со цел да се „разберат и анализираат реалните појави“ преку податоците.[3] Оваа наука користи техники и теории извлечени од многу полиња во контекст на математика, статистика, компјутерски науки и информатика .

Добитникот на наградата Туринг, Џим Греј, ја објаснил науката за податоците како „четврта парадигма“ на науката како додаток на веќе постоечките парадигми: емпириска, теоретска и пресметковна тврдејќи дека „сè во науката се менува поради влијанието на информатичката технологија “ и презаситеноста од податоци .[4][5]

Науката за податоците е меѓудисциплинарна област насочена кон извлекување на корисни информации и знаење од множества на податоци, кои се обично големи (анг. big data).[6] Ова поле опфаќа подготвување податоци за анализа, податочна анализа, и презентирање на корисната информација извлечена од процесот со цел донесување на информирана одлука на високо ниво во една организација. Како таква, таа вклучува вештини од компјутерски науки, математика, статистика, визуелизација на информации, графички дизајн, сложени системи, комуникација и бизнис.[7][8] Статистичарот Нејтан Јау, потпирајќи се на Бен Фрај, исто така ја поврзал науката за податоците со односот човек-сметач : корисниците треба да можат интуитивно да ги контролираат и истражуваат податоците.[9][10] Во 2015 година, Американското здружение за статистика ги идентификувало управување со базата на податоци, статистика и машинско учење и дистрибуирани и паралелни системи како трите нови професионални заедници.[11]

Многу статистичари, вклучително и Нејт Силвер, тврдат дека науката за податоците не е ново поле, туку е друго име за полето на статистика.[12] Други пак тврдат дека науката за податоците е различна од статистиката затоа што се фокусира на проблеми и техники кои се уникатни за дигиталните податоци.[13] Ванстан Дар пак, тврди дека статистиката ги нагласува квантитативните податоци и нивниот опис. Спротивно на тоа, науката за податоците се занимава со квантитативни и квалитативни податоци (на пр. Слики) и нагласува предвидување и дејствување согласно тие податоци.[14] Ендру Гелман од Универзитетот Колумбија и податочниот научник Винсент Гранвил ја опишале статистиката како несуштински дел од науката за податоци.[15][16] Професорот од Стенфорд, Дејвид Донохо, расправал дека науката за податоците не се разликува од статистиката според големината на податоците и податочните множества или според употребата на компјутерите, и дека многу институции погрешно ја маркетираат обуката за анализа и статистика како суштина на програмата за наука за податоци. Тој ја дефинирал науката за податоците како применета област која произлегува од традиционалната статистика.[17] Согласно ова, може да се заклучи дека науката за податоците се опишува како применета гранка на статистиката.

Етимологија

уреди

Рана употреба

уреди

Во 1962 година, Џон Туки ја опишал областа оваа област нарекувајќи ја „анализа на податоци“, што наликува на современата област наука за податоците.[17] Подоцна, присутните на симпозиумот за статистика во 1992 година на Универзитетот во Монпелје Втори го признале појавувањето на нова дисциплина фокусирана на податоци од различно потекло и форми, комбинирајќи воспоставени концепти и принципи на статистика и анализа на податоци преку компјутер.[18][19]

Поимот „наука за податоците“ се појавил уште во 1974 година, кога Питер Наур го предложил како алтернативно име за компјутерски науки.[20] Во 1996 година, Меѓународната федерација на класификациони друштва станала првата конференција на која специфично е прикажана науката за податоците како тема. Сепак, дефиницијата сè уште била во тек. Во 1997 година, Ц.Ф. Џеф Ву сугерирал дека статистиката треба да се преименува во науката за податоците. Тој образложил дека новото име ќе и помогне на истата да отфрли некои неточни стереотипи поврзани со работата во ова поле, како на пример нејзиното сметање за синоним со сметководство.[21]

Во 1998 година, Чикио Хајаши тврдел дека науката за податоците е нов, интердисциплинарен концепт, со три аспекти: дизајн на податоци, собирање и анализа.[19]

Во текот на 90-тите години на минатиот век, популарни јазични термини за процесот на изнаоѓање шеми и поврзаности во податочните множества (кои станувале сè поголеми) вклучувале „откривање на знаење“ и „рударење податоци“.[20][22]

Современата концепција на науката за податоците како независна дисциплина понекогаш му се припишува на Вилијам Кливленд.[23] Во негов труд од 2001 година, тој се залагал за проширување на статистиката надвор од математичката теорија и тоа во технички области; и бидејќи ова значително ќе го промени полето, постои потреба од ново име.[22] „Науката за податоците“ станала пошироко користена во следните неколку години: во 2002 година, Комитетот за податоци за наука и технологија го објавил списанието „Data Science Journal“. Во 2003 година, Универзитетот Колумбија го објавил ,,The Journal of Data Science". Во 2014 година, Одделот за статистичко учење и рударење на податоци на Американското статистичко здружение го променил своето име во Секција за статистичко учење и наука за податоците, како одраз на растечката популарност на науката за податоците.[24]

Професионалното звање „податочен научник“ им се припишува на ДЈ Патил и Џеф Хамербахер во 2008 година.[25] Иако било користено од Националниот научен одбор во нивниот извештај од 2005 година, „"Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century,", тој општо се однесувал на која било клучна улога во управувањето со дигиталната колекција на податоци.[26]

Сè уште нема консензус за дефиницијата на науката за податоците.[27]

Влијанија на науката за податоците

уреди

Големите збирови на податоци многу брзо стануваат витална алатка за деловните субјекти и компаниите од сите големини.[28] Достапноста и интерпретацијата на големите податоци менуваат деловните модели на старите индустрии и овозможуваат создавање на нови. Бизнисите водени од податоци се во вредност од 1,2 трилиони долари колективно во 2020 година, што е пораст од 333 милијарди долари за 2015 година.[29] Податочните научници се одговорни за разградување на големите податоци во употребливи информации и создавање на софтвер и алгоритми кои им помагаат на компаниите и организациите да утврдат оптимално работење. Бидејќи големите податоци продолжуваат да имаат големо влијание врз светот, науката за податоците го прави и тоа како резултат на блиската врска меѓу нив.

Технологии и техники

уреди

Постојат различни технологии и техники кои се користат во науката на податоци, кои зависат од апликацијата на истата. Во поново време, развиени се посебни платформи кои се на широко се користат за наука на податоци и машинско учење.

Техники

уреди
  • Линеарна регресија
  • Логистичка регресија
  • Дрвата на одлучување се користат како модели за предвидување за класификација и вклопување на податоците. Структурата на дрвото на одлучување може да се искористи за генерирање правила што можат да ги класифицираат или да предвидат некоја целна променлива, класа или етикета, врз основа на атрибутите за набљудување.
  • Векторска машина за поддршка (SVM)
  • Кластерирање е техника што се користи за групирање на податоците заедно.
  • Намалувањето на димензионалноста се користи за да се намали комплексноста на пресметката на податоците за да може побрзо да се изврши.
  • Машинското учење е техника што се користи за извршување на задачи со преглед на обрасци од податоци.

Јазици

уреди
  • Пајтон е програмски јазик со едноставна синтакса која најчесто се користи за наука за податоците.[30] Постојат голем број библиотеки кои се користат во науката за податоците, вклучително и вкочанета, панда и лута.
  • R е програмски јазик дизајниран за статистичари и податоци за рударство[31] и е оптимизиран за пресметка .
  • Juliа е јазик на високо ниво со високи перформанси, со можност за динамичко програмиеање и јазик кој е добро прилагоден за бројчена анализа и компјутерска наука.

Рамки

уреди
  • TensorFlow е рамка за создавање модели за машинско учење развиена од Google.
  • Pytorch е друга рамка за машинско учење развиена од Фејсбук.
  • Jupyter Notebook е интерактивен веб-интерфејс за Python кој овозможува побрзо експериментирање.
  • Apache Hadoop е софтверска рамка што се користи за обработка на податоци преку големи дистрибуирани системи.

Алатки за визуелизација

уреди
  • Plotly обезбедува богат сет на интерактивни библиотеки за научни графики.
  • Tableau прави разновиден софтвер што се користи за визуелизација на податоците.[32]
  • PowerBI е деловна аналитичка услуга на „Мајкрософт“.
  • Qlik произведува софтвер како QlikView и Qlik Sense што се користи за визуелизација на податоци и деловна интелигенција.
  • AnyChart обезбедува библиотеки на JavaScript и други алатки за визуелизација на податоци во графикони и контролни табли.
  • Google Charts е веб-услуга заснована на JavaScript, направена и поддржана од Google за создавање графички графикони.
  • Sisense обезбедува предност за градење визуелизации на податоци, вклучувајќи контролни табли и извештаи.
  • Webix е пакет алатки за кориснички интерфејс кој вклучува наменски алатки за визуелизација на информации.

Платформи

уреди
  • RapidMiner е софтверска платформа за наука за податоците развиена од истоимената компанија.
  • Dataiku е колаборативен софтвер за наука на податоци што се продава за големи податоци.
  • Аnaconda обезбедува сеопфатна бесплатна дистрибуција со отворен извор на програмските јазици Python и R.
  • MATLAB е компјутерска околина која многу се користи во индустријата и академијата.
  • Databricks е клауд-платформа за облак за масовно инженерство на податоци и колаборативна наука за податоците.

Наводи

уреди
  1. Dhar, V. (2013). „Data science and prediction“. Communications of the ACM. 56 (12): 64–73. doi:10.1145/2500499. Архивирано од изворникот на 9 November 2014. Посетено на 12 ноември 2020.
  2. Jeff Leek (2013-12-12). „The key word in "Data Science" is not Data, it is Science“. Simply Statistics. Архивирано од изворникот на 2 January 2014. Посетено на 12 ноември 2020.
  3. Hayashi, Chikio (1998-01-01). „What is Data Science? Fundamental Concepts and a Heuristic Example“. Во Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (уред.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (англиски). Springer Japan. стр. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  4. Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4. Архивирано од изворникот на 20 March 2017. Посетено на 12 ноември 2020.
  5. Bell, G.; Hey, T.; Szalay, A. (2009). „COMPUTER SCIENCE: Beyond the Data Deluge“. Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007.
  6. „About Data Science | Data Science Association“. www.datascienceassn.org. Архивирано од изворникот на 2020-08-10. Посетено на 12 ноември 2020.
  7. „1. Introduction: What Is Data Science? - Doing Data Science [Book]“. www.oreilly.com (англиски). Посетено на 12 ноември 2020.
  8. „the three sexy skills of data geeks“. m.e.driscoll: data utopian (англиски). Посетено на 12 ноември 2020.
  9. Yau, Nathan (2009-06-04). „Rise of the Data Scientist“. FlowingData (англиски). Посетено на 12 ноември 2020.
  10. „Basic Example“. benfry.com. Посетено на 12 ноември 2020.
  11. „ASA Statement on the Role of Statistics in Data Science“. AMSTATNEWS. American Statistical Association. 2015-10-01. Архивирано од изворникот на 20 June 2019. Посетено на 12 ноември 2020.
  12. „Nate Silver: What I need from statisticians - Statistics Views“. www.statisticsviews.com. Архивирано од изворникот на 2020-06-11. Посетено на 12 ноември 2020.
  13. „What's the Difference Between Data Science and Statistics?“. Priceonomics (англиски). Посетено на 12 ноември 2020.
  14. DharVasant (2013-12-01). „Data science and prediction“. Communications of the ACM (англиски). 56 (12): 64–73. doi:10.1145/2500499.
  15. „Statistics is the least important part of data science « Statistical Modeling, Causal Inference, and Social Science“. statmodeling.stat.columbia.edu. Посетено на 12 ноември 2020.
  16. Posted by Vincent Granville on December 8, 2014 at 5:00pm; Blog, View. „Data science without statistics is possible, even desirable“. www.datasciencecentral.com (англиски). Архивирано од изворникот на 2020-11-12. Посетено на 12 ноември 2020.
  17. 17,0 17,1 Donoho, David (September 18, 2015). „50 years of Data Science“ (PDF). Посетено на 12 ноември 2020.
  18. Data science and its applications = La @science des données et ses applications. Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard. Tokyo: Academic Press/Harcourt Brace. 1995. ISBN 0-12-241770-4. OCLC 489990740.CS1-одржување: друго (link)
  19. 19,0 19,1 Murtagh, Fionn; Devlin, Keith (2018). „The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development“. Big Data and Cognitive Computing (англиски). 2 (2): 14. doi:10.3390/bdcc2020014.
  20. 20,0 20,1 CaoLongbing (2017-06-29). „Data Science“. ACM Computing Surveys (англиски). 50 (3): 1–42. doi:10.1145/3076253.
  21. Wu, C.F. Jeff. „Statistics=Data Science?“ (PDF). Архивирано од изворникот (PDF) на 2014-10-14. Посетено на 12 ноември 2020.
  22. 22,0 22,1 Press, Gil. „A Very Short History Of Data Science“. Forbes (англиски). Посетено на 12 ноември 2020.
  23. Gupta, Shanti (December 11, 2015). „William S Cleveland“. Посетено на 12 ноември 2020.
  24. Talley, Jill (June 1, 2016). „ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science“. Amstat News. American Statistical Association.
  25. Davenport, Thomas H.; Patil, D. J. (2012-10-01). „Data Scientist: The Sexiest Job of the 21st Century“. Harvard Business Review (October 2012). ISSN 0017-8012. Посетено на 12 ноември 2020.
  26. „US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century“. www.nsf.gov. Посетено на 12 ноември 2020.
  27. Press, Gil. „Data Science: What's The Half-Life Of A Buzzword?“. Forbes (англиски). Посетено на 12 ноември 2020.
  28. Pham, Peter. „The Impacts Of Big Data That You May Not Have Heard Of“. Forbes (англиски). Посетено на 12 ноември 2020.
  29. Martin, Sophia (2019-09-20). „How Data Science will Impact Future of Businesses?“. Medium (англиски). Посетено на 12 ноември 2020.
  30. Shell, M Scott (September 24, 2019). „An introduction to Python for scientific computing“ (PDF). Посетено на 12 ноември 2020.
  31. „R FAQ“. cran.r-project.org. Посетено на 12 ноември 2020.
  32. Rhodes, Margaret (15 July 2014). „A Dead-Simple Tool That Lets Anyone Create Interactive Maps“. Wired. Посетено на 12 ноември 2020.