CiteSeer X (претходно CiteSeer ) — слободен и јавно достапен пребарувач и дигитална библиотека за научни и академски трудови, првенствено од областа на компјутерската и информатичката наука .

CiteSeerX
Вид место
Библиографска датотека
Достапно наШпански
СопственикПенсилваниски државен универзитет колеџ за информатички науки и технологија
ПриходиАктивни приходи
Адресаciteseerx.ist.psu.edu Уредете го ова на Википодатоците
ЗачленувањеНезадолжително
Пуштено2008; пред 16 години (2008) / 1997; пред 27 години (1997)
Тековна состојбаАктивна страница
Лиценца на содржината
Creative Commons BY-NC-SA license[1]

Целта на CiteSeer е да го подобри пристапот и да ја рашири употребата на академската и научната литература. Како непрофитна услуга која може слободно да се користи, е дел од движењето за слободен пристап кое се обидува да го промени академското и научното издаваштво со цел да се овозможи поголем пристап до научната литература. CiteSeer слободно обезбедува метаподатоци Иницијативата за слободни архиви за сите заведени документи и ги поврзува заведените документи кога е можно со други извори на метаподатоци како што се DBLP и порталот ACM . Ова е со цел на промоција на слободни податоци, при што CiteSeer X ги споделува своите податоци за неекономски цели под слободната лиценца Creative Commons.[1]

CiteSeer се смета за претходник на академските алатки за пребарување како што се Google Scholar и Microsoft Academic Search.[2] Пребарувачите и складиштата налик на CiteSeer вообичаено собираат документи само од јавно достапни мрежни страници и не ги заведуваат мрежните местоположби на издавачите. Од оваа причина, авторите чии трудови се слободно достапни имаат поголема веројатност да се застапени во базата.

CiteSeer во еден период се преименува во ResearchIndex, за подоцна повторно да го врати старото име назад.[3]

Историја

уреди

CiteSeer и CiteSeer.IST

уреди

CiteSeer беше создаден од истражувачите Ли Гилс, Курт Болакер и Стив Лоренс во 1997 година како дел од Истражувачкиот институт NEC (денес НЕЦ Лабс ), во Принстон, Њу Џерси, САД. Целта на CiteSeer беше активно да дајствува и собира академски и научни документи објавени мрежно и со употреба на автономно заведување на наводи да овоможи пребарање преку наводи или по документи, рангирајќи ги според влијанието на наводот. Во еден момент, бил именуван како ResearchIndex.

CiteSeer станува јавно достапен во 1998 година и како таков има многу нови функции кои дотогаш биле недостапни во веќе постоечките академски пребарувачи. Вклучувајќи:

  • Автономното заведување на нводи во автоматски создаден индекс на наводи што може да се користат за пребарување и оценување на трудовите.
  • Статистиката за наводи и сродни документи се пресметани за сите статии наведени во базата на податоци, а не само за заведените статии.
  • Поврзување со наводи, овозможувајќи прелистување на базата на податоци користејќи врски за наводи.
  • Контекстот на наведување го покажа контекстот на наводите во определен труд, овозможувајќи му на истражувачот брзо и лесно да види што другите истражувачи имаат да кажат за темата од интерес.
  • Поврзани документи се прикажани со помош на мерки засновани на наводи и зборови, а за секој документ е прикажана активна и постојано возобновувана библиографија.

На CiteSeer му беше доделен патент во Соединетите Американски Држави #6289342, под наслов „Автономно заведување на наводи и прелистување на литература користејќи контекст на наводи“, на 11 септември 2001 година. Патентот е поднесен на 20 мај 1998 година и има приоритет до 5 јануари 1998 година. Продолжен патент (Американски патент #6738780) е поднесен на 16 мај 2001 година и е доделен на 18 мај 2004 година.

По NEC, во 2004 година беше воспоставен како CiteSeer.IST на светската мрежа при Пенсилванискиот државен колеџ за инфрматички науки и технологија, и поседуваше преку 700.000 документи. За подобар пристап, одлики и истражување, слични верзии на CiteSeer беа поддржани на универзитети како што се Маачусетскиот технолошкиот институт, Циришкиот универзитет и Сингапурскиот национален универзитет. Сепак, овие верзии на CiteSeer се покажале како тешки за одржување и повеќе не се достапни. Бидејќи CiteSeer ги индексира само слободно достапните трудови на мрежата и нема пристап до метаподатоците на издавачот, дава помал број на наводи од страниците, во споредба соGoogle Scholar, кој поседува и метаподатоци за издавачот.

CiteSeer не беше сеопфатно ажуриран од 2005 година поради ограничувањата во дизајнот на неговата архитектура. Иако поседуваше репрезентативен учинок од истражувачки документи од компјутерската и информатичката наука, сепак бил ограничен во опфатот од причина што достапни биле само трудови од јавен карактер, односно апстрактот на авторот, или пак само оние кои самите автори ги подигнале на пребарувачот. За да се надминат некои од овие ограничувања, била осмислена модуларна архитектура со слободен код за CiteSeer – CiteSeer X.

CiteSeer X

уреди

CiteSeer X го замени CiteSeer и сите пребарувања на CiteSeer се пренасочени кон новата верзија. CiteSeerX[4] е јавен пребарувач и дигитална библиотека и складиште за научни и академски трудови, првенствено со фокус на компјутерската и информатичката наука.[4] Сепак, неодамна CiteSeer X се прошири и во други научни домени како што се економија, физика и други. Првпат пуштен во работа во 2008 година, станува збор за софтвер делумно заснован на својот претходник пребарувачот и истовремено дигитална библиотека CiteSeer и поседувва нова инфраструктура со слободен код, SeerSuite, и дополнителни нови алгоритми и нивна примена. Како алатка е осмислена од страна на истражувачите Исак Консил и К. Ли Гилс од Пенсилванискиот државен колеџ за информатички науки и технологија. Целта на софтверот е да ги поддржува целите наведени од CiteSeer за активно дејствување и собирање н академски и научни документи присутни на јавната мрежа и да користи пребарување на наводи и рангирање по наводи по влијанието на на наводите. Во моментов, Ли Гилс, Прасенјит Митра, Сузан Гауч, Мин-Јен Кан, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Пуктада Трератпитук, Џијан Ву, Даглас Џордан, Стив Карман, Џек Керол, Џим Јансен и Шуји Женг се или хекогаш активно биле вклучени во неговиот развој. Неодамна, е воведена нова функцијата за пребарување на табели.[5] Финансиран е од Националната научна фондација, НАСА и Microsoft Research .

CiteSeer X е оценуван како еден од најдобрите софтвери складишта во светот и во јули 2010 година беше оценет како број 1 складишен софтвер.[6] Моментано располага со над 6 милиони документи од речиси 6 милиони автори и над 120 милиони наводи.

CiteSeer X исто така го споделува својот софтвер, податоци, бази на податоци и метаподатоци со други истражувачи, како што се Amazon S3 и rsync.[7] Неговата нова модуларна архитектура и софтвер (достапни претходно на SourceForge, но сега на GitHub ) се со отвор код заснован на Apache Solr и на други Apache алатки со отворен код, со што се овозможува да биде полигон за тестирање на новите алгоритми употребени за собирање на документи, нивно рангирање, запишување и извлекување на информации.

CiteSeer X складира некои PDF-датотеки што ги скенира. Паод оваа причина, секоја страница вклучува DMCA врска што може да се искористи за пријавување на прекршување на авторските права. [8]

Тековни карактеристики

уреди

Автоматско извлекување информации

уреди

CiteSeer X користи автоматизирани алатки за извлекување информации, кои обично се засновани на методи за машинско учење, па такви се ParsCit, кој пак се користи за да добијат метаподатоците за научните документи односно нивните наслови, автори, апстракти, наводи итн. Од оваа причина, понекогаш се случува да има грешки кај авторите и насловите. Дополнително и други академски пребарувачи имаат слични грешки.

Насочено дејствување

уреди

CiteSeer X ги складира јавно достапните научни документи првенствено од мрежните страници на авторот и други слободни документи и нема пристап до метаподатоците на издавачот. И од оваа причина, бројот на наводи во CiteSeer X е очекувано помал од бројот на наводи кај Google Scholar и Microsoft Academic Search кои имаат пристап до метаподатоците на издавачот.

Употреба

уреди

CiteSeer X има речиси еден милион корисници ширум светот врз основа на употребени приватни IP адреси и има милиони посети дневно. Годишните преземања на документи во облик на PDF-датотеки достигнаа близу 200 милиони за 2015 година.

Податоци

уреди

Податоците на CiteSeer X редовно се споделуваат под лиценцата Creative Commons BY-NC-SA со истражувачи ширум светот и се користат во многу експерименти и натпревари.

Благодарение на неговата крајна точка OAI-PMH, [9] CiteSeerX е отворена архива и неговата содржина е подредена како институционално складиште кај академските пребарувачи, како на пример BASE и Unpaywall .

Други пребарувачи засновани на SeerSuite

уреди

Моделот CiteSeer е проширен за да ги опфати и економските академски документи преку SmealSearch, а пак во е-бизнисот со eBizSearch . Поради губењето на финансиските средства од нивните поддржувачи тие престанале да постојат. Постара верзија на двата пребарувачи може да се најде на BizSeer.IST, но тој повеќе не е во функција.

Други системи за пребарување и складишта слични на Seer се обмислени за хемија, Chem X Seer и за археологија, ArchSeer. Дополнително е обмислена и друга алатка за пребарување на датотеки robots.txt, BotSeer. Сите овие се засновани на алатката со отворен код SeerSuite, која користи показател со отворен код Lucene.

Поврзано

уреди

Наводи

уреди
  1. 1,0 1,1 „CiteSeerX Data Policy“. Архивирано од изворникот на 2012-01-05. Посетено на 2015-11-10.
  2. Kodakateri Pudhiyaveetil, Ajith; Gauch, Susan; Luong, Hiep; Eno, Josh (2009). „Conceptual recommender system for CiteSeerX“. Proceedings of the third ACM conference on Recommender systems. New York, New York, US: ACM Press. стр. 241. doi:10.1145/1639714.1639758. ISBN 978-1-60558-435-5.
  3. Lawrence, Steve (2001). „ResearchIndex: Inside the world's largest free full-text index of scientific literature“. Proceedings of the international conference on Knowledge capture - K-CAP 2001. стр. 3. doi:10.1145/500737.500740. ISBN 1-58113-380-4.
  4. 4,0 4,1 „About CiteSeerX“. Архивирано од изворникот на 2010-07-22. Посетено на 2010-05-07.
  5. „The CiteSeerX Team“. Pennsylvania State University. Архивирано од изворникот на 2018-07-26. Посетено на 2018-05-01.
  6. „Ranking Web of World Repositories: Top 800 Repositories“. Cybermetrics Lab. July 2010. Архивирано од изворникот на 2010-07-24. Посетено на 2010-07-24.
  7. „About CiteSeerX Data“. Pennsylvania State University. Архивирано од изворникот на 2012-01-05. Посетено на 2012-01-25.
  8. For example, „CiteSeerx – DMCA Notice“. CiteSeerX 10.1.1.604.4916. Архивирано од изворникот на 2022-03-18. The document with the identifier "10.1.1.604.4916" has been removed due to a DMCA takedown notice. If you believe the removal has been in error, please contact us through the feedback page, along with the identifier mentioned in this page.
  9. Hirst, Tony (2011-12-08). „Using OAI-PMH as a Single Record Level Query Interface to Citeseer“. Архивирано од изворникот на 2020-11-24. Посетено на 2020-04-25.

Дополнителна литература

уреди

Надворешни врски

уреди