Наука за податоци

Науката за податоци е меѓудисциплинарна област која користи научни методи, постапки, алгоритми и системи за да извлече знаење и корисни информации од многу структурирани и неструктурирани податоци.[1][2] Науката за податоци е поврзана со податочно рударење (анг. data mining), машинско учење и големи сетови податоци (анг. big data).

Науката за податоци е „концепт кој ги обединува дисциплините: статистика, анализа на податоци и нивните сродни методи“ со цел да се „разберат и анализираат реалните појави“ преку податоците.[3] Оваа наука користи техники и теории извлечени од многу полиња во контекст на математика, статистика, компјутерски науки и информатика .

Добитникот на наградата Туринг, Џим Греј, ја објаснил науката за податоци како „четврта парадигма“ на науката како додаток на веќе постоечките парадигми: емпириска, теоретска и пресметковна тврдејќи дека „сè во науката се менува поради влијанието на информатичката технологија “ и презаситеноста од податоци .[4][5]

Науката за податоци е интердисциплинарна област насочена кон извлекување на корисни информации и знаење од множества на податоци, кои се обично големи (анг. big data).[6] Ова поле опфаќа подготвување податоци за анализа, податочна анализа, и презентирање на корисната информација извлечена од процесот со цел донесување на информирана одлука на високо ниво во една организација. Како таква, таа вклучува вештини од компјутерски науки, математика, статистика, визуелизација на информации, графички дизајн, сложени системи, комуникација и бизнис.[7][8] Статистичарот Нејтан Јау, потпирајќи се на Бен Фрај, исто така ја поврзал науката за податоци со интеракцијата човек-компјутер : корисниците треба да можат интуитивно да ги контролираат и истражуваат податоците.[9][10] Во 2015 година, Американското здружение за статистика ги идентификувало управување со базата на податоци, статистика и машинско учење и дистрибуирани и паралелни системи како трите нови професионални заедници.[11]

Многу статистичари, вклучително и Нејт Силвер, тврдат дека науката за податоци не е ново поле, туку е друго име за полето на статистика.[12] Други пак тврдат дека науката за податоци е различна од статистиката затоа што се фокусира на проблеми и техники кои се уникатни за дигиталните податоци.[13] Ванстан Дар пак, тврди дека статистиката ги нагласува квантитативните податоци и нивниот опис. Спротивно на тоа, науката за податоци се занимава со квантитативни и квалитативни податоци (на пр. Слики) и нагласува предвидување и дејствување согласно тие податоци.[14] Ендру Гелман од Универзитетот Колумбија и научникот за податоци Винсент Гранвил ја опишале статистиката како несуштински дел од науката за податоци.[15][16] Професорот од Стенфорд, Дејвид Донохо, расправал дека науката за податоци не се разликува од статистиката според големината на податоците и податочните множества или според употребата на компјутерите, и дека многу институции погрешно ја маркетираат обуката за анализа и статистика како суштина на програмата за наука за податоци. Тој ја дефинирал науката за податоци како применета област која произлегува од традиционалната статистика.[17] Согласно ова, може да се заклучи дека науката за податоци се опишува како применета гранка на статистиката.

ЕтимологијаУреди

Рана употребаУреди

Во 1962 година, Џон Туки ја опишал областа оваа област нарекувајќи ја „анализа на податоци“, што наликува на современата област наука за податоци.[17] Подоцна, присутните на симпозиумот за статистика во 1992 година на Универзитетот во Монпелје Втори го признале појавувањето на нова дисциплина фокусирана на податоци од различно потекло и форми, комбинирајќи воспоставени концепти и принципи на статистика и анализа на податоци преку компјутер.[18][19]

Терминот „наука за податоци“ се појавил уште во 1974 година, кога Питер Наур го предложил како алтернативно име за компјутерски науки.[20] Во 1996 година, Меѓународната федерација на класификациони друштва станала првата конференција на која специфично е прикажана науката за податоци како тема. Сепак, дефиницијата сè уште била во тек. Во 1997 година, Ц.Ф. Џеф Ву сугерирал дека статистиката треба да се преименува во наука за податоци. Тој образложил дека новото име ќе и помогне на истата да отфрли некои неточни стереотипи поврзани со работата во ова поле, како на пример нејзиното сметање за синоним со сметководство.[21]

Во 1998 година, Чикио Хајаши тврдел дека науката за податоци е нов, интердисциплинарен концепт, со три аспекти: дизајн на податоци, собирање и анализа.[19]

Во текот на 90-тите години на минатиот век, популарни јазични термини за процесот на изнаоѓање шеми и поврзаности во податочните множества (кои станувале сè поголеми) вклучувале „откривање на знаење“ и „рударење податоци“.[20][22]

Современата концепција на науката за податоци како независна дисциплина понекогаш му се припишува на Вилијам Кливленд.[23] Во негов труд од 2001 година, тој се залагал за проширување на статистиката надвор од математичката теорија и тоа во технички области; и бидејќи ова значително ќе го промени полето, постои потреба од ново име.[22] „Науката за податоци“ станала пошироко користена во следните неколку години: во 2002 година, Комитетот за податоци за наука и технологија го објавил списанието „Data Science Journal“. Во 2003 година, Универзитетот Колумбија го објавил ,,The Journal of Data Science". Во 2014 година, Одделот за статистичко учење и рударење на податоци на Американското статистичко здружение го променил своето име во Секција за статистичко учење и наука за податоци, како одраз на растечката популарност на науката за податоци.[24]

Професионалното звање „научник за податоци“ им се припишува на ДЈ Патил и Џеф Хамербахер во 2008 година.[25] Иако било користено од Националниот научен одбор во нивниот извештај од 2005 година, „"Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century,", тој општо се однесувал на која било клучна улога во управувањето со дигиталната колекција на податоци.[26]

Сè уште нема консензус за дефиницијата на науката за податоци.[27]

Влијанија на науката за податоциУреди

Големите збирови на податоци многу брзо стануваат витална алатка за деловните субјекти и компаниите од сите големини.[28] Достапноста и интерпретацијата на големите податоци менуваат деловните модели на старите индустрии и овозможуваат создавање на нови. Бизнисите водени од податоци се во вредност од 1,2 трилиони долари колективно во 2020 година, што е пораст од 333 милијарди долари за 2015 година.[29] Научниците за податоци се одговорни за разградување на големите податоци во употребливи информации и создавање на софтвер и алгоритми кои им помагаат на компаниите и организациите да утврдат оптимално работење. Бидејќи големите податоци продолжуваат да имаат големо влијание врз светот, науката за податоци го прави и тоа како резултат на блиската врска меѓу нив.

Технологии и техникиУреди

Постојат различни технологии и техники кои се користат во науката на податоци, кои зависат од апликацијата на истата. Во поново време, развиени се посебни платформи кои се на широко се користат за наука на податоци и машинско учење.

ТехникиУреди

  • Линеарна регресија
  • Логистичка регресија
  • Дрвата на одлучување се користат како модели за предвидување за класификација и вклопување на податоците. Структурата на дрвото на одлучување може да се искористи за генерирање правила што можат да ги класифицираат или да предвидат некоја целна променлива, класа или етикета, врз основа на атрибутите за набљудување.
  • Векторска машина за поддршка (SVM)
  • Кластерирање е техника што се користи за групирање на податоците заедно.
  • Намалувањето на димензионалноста се користи за да се намали комплексноста на пресметката на податоците за да може побрзо да се изврши.
  • Машинското учење е техника што се користи за извршување на задачи со преглед на обрасци од податоци.

ЈазициУреди

  • Пајтон е програмски јазик со едноставна синтакса која најчесто се користи за наука за податоци.[30] Постојат голем број библиотеки кои се користат во науката за податоци, вклучително и вкочанета, панда и лута.
  • R е програмски јазик дизајниран за статистичари и податоци за рударство[31] и е оптимизиран за пресметка .
  • Juliа е јазик на високо ниво со високи перформанси, со можност за динамичко програмиеање и јазик кој е добро прилагоден за бројчена анализа и компјутерска наука.

РамкиУреди

  • TensorFlow е рамка за создавање модели за машинско учење развиена од Google.
  • Pytorch е друга рамка за машинско учење развиена од Фејсбук.
  • Jupyter Notebook е интерактивен веб-интерфејс за Python кој овозможува побрзо експериментирање.
  • Apache Hadoop е софтверска рамка што се користи за обработка на податоци преку големи дистрибуирани системи.

Алатки за визуелизацијаУреди

  • Plotly обезбедува богат сет на интерактивни библиотеки за научни графики.
  • Tableau прави разновиден софтвер што се користи за визуелизација на податоците.[32]
  • PowerBI е деловна аналитичка услуга на „Мајкрософт“.
  • Qlik произведува софтвер како QlikView и Qlik Sense што се користи за визуелизација на податоци и деловна интелигенција.
  • AnyChart обезбедува библиотеки на JavaScript и други алатки за визуелизација на податоци во графикони и контролни табли.
  • Google Charts е веб-услуга заснована на JavaScript, направена и поддржана од Google за создавање графички графикони.
  • Sisense обезбедува предност за градење визуелизации на податоци, вклучувајќи контролни табли и извештаи.
  • Webix е пакет алатки за кориснички интерфејс кој вклучува наменски алатки за визуелизација на информации.

ПлатформиУреди

  • RapidMiner е софтверска платформа за наука за податоци развиена од истоимената компанија.
  • Dataiku е колаборативен софтвер за наука на податоци што се продава за големи податоци.
  • Аnaconda обезбедува сеопфатна бесплатна дистрибуција со отворен извор на програмските јазици Python и R.
  • MATLAB е компјутерска околина која многу се користи во индустријата и академијата.
  • Databricks е клауд-платформа за облак за масовно инженерство на податоци и колаборативна наука за податоци.

НаводиУреди

  1. Dhar, V. (2013). „Data science and prediction“. Communications of the ACM. 56 (12): 64–73. doi:10.1145/2500499. Архивирано од изворникот на 9 November 2014. Посетено на 12 ноември 2020.
  2. Jeff Leek (2013-12-12). „The key word in "Data Science" is not Data, it is Science“. Simply Statistics. Архивирано од изворникот на 2 January 2014. Посетено на 12 ноември 2020.
  3. Hayashi, Chikio (1998-01-01). „What is Data Science? Fundamental Concepts and a Heuristic Example“. Во Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (уред.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (англиски). Springer Japan. стр. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  4. Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4. Архивирано од изворникот на 20 March 2017. Посетено на 12 ноември 2020.
  5. Bell, G.; Hey, T.; Szalay, A. (2009). „COMPUTER SCIENCE: Beyond the Data Deluge“. Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007.
  6. „About Data Science | Data Science Association“. www.datascienceassn.org. Посетено на 12 ноември 2020.
  7. „1. Introduction: What Is Data Science? - Doing Data Science [Book]“. www.oreilly.com (англиски). Посетено на 12 ноември 2020.
  8. „the three sexy skills of data geeks“. m.e.driscoll: data utopian (англиски). Посетено на 12 ноември 2020.
  9. Yau, Nathan (2009-06-04). „Rise of the Data Scientist“. FlowingData (англиски). Посетено на 12 ноември 2020.
  10. „Basic Example“. benfry.com. Посетено на 12 ноември 2020.
  11. „ASA Statement on the Role of Statistics in Data Science“. AMSTATNEWS. American Statistical Association. 2015-10-01. Архивирано од изворникот на 20 June 2019. Посетено на 12 ноември 2020.
  12. „Nate Silver: What I need from statisticians - Statistics Views“. www.statisticsviews.com. Посетено на 12 ноември 2020.
  13. „What's the Difference Between Data Science and Statistics?“. Priceonomics (англиски). Посетено на 12 ноември 2020.
  14. DharVasant (2013-12-01). „Data science and prediction“. Communications of the ACM (англиски). 56 (12): 64–73. doi:10.1145/2500499.
  15. „Statistics is the least important part of data science « Statistical Modeling, Causal Inference, and Social Science“. statmodeling.stat.columbia.edu. Посетено на 12 ноември 2020.
  16. Posted by Vincent Granville on December 8, 2014 at 5:00pm; Blog, View. „Data science without statistics is possible, even desirable“. www.datasciencecentral.com (англиски). Посетено на 12 ноември 2020.
  17. 17,0 17,1 Donoho, David (September 18, 2015). „50 years of Data Science“ (PDF). Посетено на 12 ноември 2020.
  18. Data science and its applications = La @science des données et ses applications. Escoufier, Yves., Hayashi, Chikio (1918-....)., Fichet, Bernard. Tokyo: Academic Press/Harcourt Brace. 1995. ISBN 0-12-241770-4. OCLC 489990740.CS1-одржување: others (link)
  19. 19,0 19,1 Murtagh, Fionn; Devlin, Keith (2018). „The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development“. Big Data and Cognitive Computing (англиски). 2 (2): 14. doi:10.3390/bdcc2020014.
  20. 20,0 20,1 CaoLongbing (2017-06-29). „Data Science“. ACM Computing Surveys (англиски). 50 (3): 1–42. doi:10.1145/3076253.
  21. Wu, C.F. Jeff. „Statistics=Data Science?“ (PDF). Посетено на 12 ноември 2020.
  22. 22,0 22,1 Press, Gil. „A Very Short History Of Data Science“. Forbes (англиски). Посетено на 12 ноември 2020.
  23. Gupta, Shanti (December 11, 2015). „William S Cleveland“. Посетено на 12 ноември 2020.
  24. Talley, Jill (June 1, 2016). „ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science“. Amstat News. American Statistical Association.
  25. Davenport, Thomas H.; Patil, D. J. (2012-10-01). „Data Scientist: The Sexiest Job of the 21st Century“. Harvard Business Review (October 2012). ISSN 0017-8012. Посетено на 12 ноември 2020.
  26. „US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century“. www.nsf.gov. Посетено на 12 ноември 2020.
  27. Press, Gil. „Data Science: What's The Half-Life Of A Buzzword?“. Forbes (англиски). Посетено на 12 ноември 2020.
  28. Pham, Peter. „The Impacts Of Big Data That You May Not Have Heard Of“. Forbes (англиски). Посетено на 12 ноември 2020.
  29. Martin, Sophia (2019-09-20). „How Data Science will Impact Future of Businesses?“. Medium (англиски). Посетено на 12 ноември 2020.
  30. Shell, M Scott (September 24, 2019). „An introduction to Python for scientific computing“ (PDF). Посетено на 12 ноември 2020.
  31. „R FAQ“. cran.r-project.org. Посетено на 12 ноември 2020.
  32. Rhodes, Margaret (15 July 2014). „A Dead-Simple Tool That Lets Anyone Create Interactive Maps“. Wired. Посетено на 12 ноември 2020.