Семрежно архивирање

Семрежно архивирање (веб-архивирање) — постапка на собирање делови од Светската пајажина за да се обезбеди зачувување на информациите во архивата за идните истражувачи, историчари и јавноста.^[1] Веб-архивистите обично користат веб-роботи за автоматско снимање поради огромната големина и количината на информации на веб мрежата. Најголемата организација за архивирање веб заснована на пристап на масовно ползење е „Wayback Machine“, која се труди да одржува архива на целата мрежа.

Сè поголемиот дел од човечката култура создава и запишува на веб мрежата, прави неизбежно сè повеќе и повеќе библиотеки и архиви и се соочуваат со предизвиците на архивирање на веб мрежата.^[2] Националните библиотеки, националните архиви и разни конзорциуми на организации исто така се вклучени во архивирање на културно важните веб-содржини.

Комерцијални софтвери за веб архивирање и услуги исто така се достапни за организациите кои треба да ја архивираат сопствената веб содржина за корпоративно наследство, регулаторни или правни цели.

Историја и развој

Додека одбирањето и организацијата на мрежата преовладувало од средината до крајот на 90-тите години на минатиот век, еден од првите големи архивирачки проекти бил Internet Archive, непрофитна организација создадена од Брустер Кејл во 1996 година.^[3] Интернет архивата издаде сопствен пребарувач за прегледување на архивираната веб-содржина, Wayback Machine, во 2001 година. Од 2018 година, Интернет архивата e дом на 40 петабајти податоци.^[4] Интернет архивата исто така разви многу свои алатки за собирање и складирање на нејзините податоци, вклучувајќи го и „Петабокс“ за ефикасно и безбедно складирање на големи количини на податоци и „Хетрикс“, веб-робот што бил развиен заедно со нордиските национални библиотеки. Други проекти започнати во исто време австралиската Пандора и Тасманија веб-архиви и шведската Kulturarw.

Од 2001 до 2010, меѓународната работилница за архивирање на веб (IWAW) обезбеди платформа за споделување искуства и размена на идеи.^[5]^[6] Меѓународниот конзорциум за зачувување на Интернет (IIPC), основан во 2003 година, ја олесни меѓународната соработка во развивање на стандарди и алатки со отворен извор за создавање веб-архиви.

Сега непостоечката Фондација за меморија на Интернет е основана во 2004 година и е основана од Европската комисија со цел да ја архивира веб мрежата во Европа.^[3] Овој проект разви и издаде многу алатки со отворен извор, како што се „снимање на богати медиуми, временска кохерентна анализа, проценка на несакана пошта и откривање на еволуцијата на терминологија.“ Податоците од фондацијата сега се наоѓаат во Интернет-архивата, но во моментов не се јавно достапни.^[7]

И покрај фактот дека нема централизирана одговорност за нејзино зачувување, веб-содржината забрзано станува официјален запис. На пример, во 2017 година Министерството за правда на Соединетите држави потврди дека владата ги третира твитовите на Претседателот како официјални изјави.^[8]

Собирање на веб

Веб-архивистите генерално архивираат разни видови веб-содржина, вклучувајќи HTML мрежни места, стилови, JavaScript, слики и видео. Тие исто така ги архивираат метаподатоците за собраните ресурси како што се времето на пристап, MIME типот и должината на содржината. Овие метаподатоци се корисни при утврдување на автентичноста и потеклото на архивираната колекција.

Методи на собирање

Далечинско собирање

Најчестата техника за архивирање веб користи веб-роботи за автоматизација на процесот на собирање мрежни места. Веб-роботите обично пристапуваат на мрежните места на ист начин како што корисниците со прелистувач ја гледаат мрежата и затоа обезбедуваат релативно едноставен методи за далечинско собирање на веб-содржина. Примери за веб-роботи што се користат за веб-архивирање се:

- Heritrix
- HTTrack
- Wget

Постојат различни бесплатни услуги што можат да се користат за архивирање на веб-ресурси „на барање“, користејќи техники за веб-индексирање. Овие услуги вклучуваат Wayback Machine и WebCite.

Архивирање на базата на податоци

Архивирање на базата на податоци се однесува на методи за архивирање на основната содржина на мрежните места управувани од базата на податоци. Типично бара екстракција на содржината на базата на податоци во стандардна шема, често користејќи XML. Откако ќе се зачува во тој стандарден формат, архивираната содржина на повеќе бази на податоци може да биде достапна со користење на единствен систем за пристап. Како пример за овој пристап се појавуваат алатките DeepArc и Xinq развиени од Националната библиотека на Франција и Националната библиотека на Австралија, соодветно. DeepArc овозможува структурата на релационата база на податоци да биде мапирана во XML-шема и содржината да се извезува во XML-документ. Xinq тогаш дозволува содржината да се доставува преку Интернет. Иако оригиналниот распоред и однесување на мрежната страница не може да се зачува точно, Xinq дозволува да се реплицираат основните функционалности за пребарување и пребарување.

Трансакциско архивирање

Трансакциската архивирање е пристап управуван од настани, кој ги собира реалните трансакции што се случуваат помеѓу веб-сервер и прелистувач. Првенствено се користи како средство за зачувување докази за содржината што всушност била прегледана на одредено мрежно место, на даден датум. Ова може да биде особено важно за организациите кои треба да ги почитуваат законските или регулаторните барања за откривање и задржување на информации.

Системот за архивирање на трансакциите обично работи со пресретнување на секое барање HTTP до, и одговор од, на веб-серверот, филтрирање на секој одговор за елиминирање на дупликат содржина и трајно зачувување на одговорите како преноси.

Тешкотии и ограничувања

Роботи

Веб-архивите кои се потпираат на веб-индексирање како нивни примарни средства за собирање на Интернет, се под влијание на тешкотиите на веб-индексирање:

Протоколот за исклучување на роботите може да побара од роботите да не пристапуваат до делови од мрежно место. Некои веб-архивисти може да го игнорираат барањето и да ги ползат тие делови во секој случај.
Големи делови од мрежно место може да бидат скриени во Длабоката мрежа. На пример, страницата за резултати зад веб-форма може да лежи во Длабоката мрежа, ако роботите не можат да следат врска до страницата за резултати.
Замките на роботите (на пр., Календари) може да предизвикаат од индексирање преземање на бесконечен број страници, така што роботите обично се конфигурирани да го ограничуваат бројот на динамични страници што ги лазат.
Повеќето од алатките за архивирање не ја зафаќаат страницата како што е. Забележано е дека рекламните банери и слики честопати се пропуштаат при архивирање.

Сепак, важно е да се напомене дека веб-архивата со природен формат, т.е. веб-архива со можност за прегледување, со работни врски, медиуми и сл., навистина е можна само со употреба на технологија на роботи.

Мрежата е толку голема што ползењето со значителен дел од него одзема голем број технички ресурси. Мрежата се менува толку брзо што делови од мрежно место може да се променат пред индексирање дури и да заврши со тоа што го ползи.

Општи ограничувања

Некои опслужувачи се конфигурирани да враќаат различни страници на барањата за веб-архивирање отколку што би одговориле на редовните барања на прелистувачот.^[9] Ова обично се прави за да ги измамат пребарувачите да насочуваат поголем сообраќаен корисник кон мрежно место и често се прави за да се избегне одговорност или да се обезбеди подобрена содржина само за оние прелистувачи што можат да ја прикажат.

Не само што веб-архивистите мора да се справат со техничките предизвици на веб-архивирањето, тие исто така мора да се борат и со законите за интелектуална сопственост. Питер Лиман^[10] наведува дека „иако мрежата популарно се смета како ресурс во јавна сопственост, таа е заштитена со авторски права затоа, архивистите немаат законско право да ја копираат мрежата“. Сепак, националните библиотеки во некои земји^[11] имаат законско право да копираат делови од мрежата под продолжување на законскиот депозит.

Некои приватни непрофитни веб-архиви што се јавно достапни како WebCite, Интернет-архивата или Фондацијата за меморија на Интернет, им овозможуваат на сопствениците на содржини да ја кријат или отстранат архивираната содржина до која не сакаат јавноста да има пристап. Другите веб-архиви се достапни само од одредени локации или имаат регулирано користење. WebCite ја цитира неодамнешната тужба против кеширање на Google, која Google ја доби.^[12]

Закони

Во 2017 година, Регулаторниот орган на финансиската индустрија, Inc. (FINRA), финансиска регулаторна организација на Соединетите држави, објави известување во кое се наведува дека сите деловни активности што прават дигитални комуникации се должни да водат евиденција. Ова вклучува податоци за мрежни места, објави на друштвени мрежи и пораки.^[13] Некои закони за авторски права може да ја инхибираат архивирањето на Интернет. На пример, академското архивирање од страна на Sci-Hub е надвор од границите на современиот закон за авторски права. Мрежната страница обезбедува траен пристап до академски дела, вклучително и оние што немаат дозвола за отворен пристап и со тоа придонесува за архивирање на научни истражувања, кои инаку може да бидат изгубени.^[14]^[15]

Поврзано

Наводи

Цитати

↑ Habibzadeh, P.; Sciences, Schattauer GmbH – Publishers for Medicine and Natural (January 1, 2013). „Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals“. Applied Clinical Informatics. 4 (4): 455–464. doi:10.4338/aci-2013-07-ra-0055. PMC 3885908. PMID 24454575.
↑ „Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report“. Gail Truman. 2016. Посетено на 12 ноември 2020. Наводот journal бара |journal= (help)
↑ ^3,0 ^3,1 Toyoda, M.; Kitsuregawa, M. (May 2012). „The History of Web Archiving“. Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.
↑ „Inside Wayback Machine, the internet's time capsule“. The Hustle. September 28, 2018. sec. Wayyyy back. Посетено на 12 ноември 2020.
↑ „IWAW 2010: The 10th Intl Web Archiving Workshop“. www.wikicfp.com. Посетено на 12 ноември 2020.
↑ „IWAW - International Web Archiving Workshops“. bibnum.bnf.fr. Архивирано од изворникот на 2012-11-20. Посетено на 12 ноември 2020.
↑ „Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming“. archive.org. Internet Archive. Посетено на 12 ноември 2020.
↑ Regis, Camille (June 4, 2019). „Web Archiving: Think the Web is Permanent? Think Again“. History Associates. Посетено на 12 ноември 2020.
↑ Habibzadeh, Parham (July 30, 2015). „Are current archiving systems reliable enough?“. International Urogynecology Journal. 26 (10): 1553. doi:10.1007/s00192-015-2805-7. ISSN 0937-3462. PMID 26224384.
↑ Lyman (2002)
↑ „Legal Deposit | IIPC“. netpreserve.org. Архивирано од изворникот на March 16, 2017. Посетено на 12 ноември 2020.
↑ „WebCite FAQ“. Webcitation.org. Архивирано од изворникот на 2011-09-29. Посетено на 12 ноември 2020.
↑ „Social Media and Digital Communications“ (PDF). finra.org. FINRA.
↑ Claburn, Thomas (10 September 2020). „Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps“. The Register (англиски).
↑ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (3 September 2020). „Open is not forever: a study of vanished open access journals“. arXiv:2008.11933 [cs]. Посетено на 12 ноември 2020. Text and images are available under a Creative Commons Attribution 4.0 International License.

Надворешни врски

Меѓународен конзорциум за зачувување на Интернет (IIPC) - меѓународен конзорциум чија мисија е да се здобијат, зачуваат и да направат достапни знаења и информации од Интернет за идните генерации
Меѓународна работилница за веб-архивирање (IWAW) - Годишна работилница која се фокусира на веб-архивирање
Национална библиотека на Австралија, зачувување на пристапот до дигитални информации (PADI)
Библиотека на Конгресот - архивирање на веб
Библиографија за архивирање на веб - долг список на ресурси за архивирање на веб
„Кон континуирано веб-архивирање“ - ulулиен Масанес, Библиотека нација на Франција
Споредба на услуги за веб-архивирање Архивирано на 12 октомври 2015 г.
Список на блогови за веб-архивирање, 2015 година

[1] Habibzadeh, P.; Sciences, Schattauer GmbH – Publishers for Medicine and Natural (January 1, 2013). „Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals“. Applied Clinical Informatics. 4 (4): 455–464. doi:10.4338/aci-2013-07-ra-0055. PMC 3885908. PMID 24454575.

[2] „Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report“. Gail Truman. 2016. Посетено на 12 ноември 2020. Наводот journal бара |journal= (help)

[kitsuregawa-3] 3,0 ^3,1 Toyoda, M.; Kitsuregawa, M. (May 2012). „The History of Web Archiving“. Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.

[4] „Inside Wayback Machine, the internet's time capsule“. The Hustle. September 28, 2018. sec. Wayyyy back. Посетено на 12 ноември 2020.

[5] „IWAW 2010: The 10th Intl Web Archiving Workshop“. www.wikicfp.com. Посетено на 12 ноември 2020.

[6] „IWAW - International Web Archiving Workshops“. bibnum.bnf.fr. Архивирано од изворникот на 2012-11-20. Посетено на 12 ноември 2020.

[7] „Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming“. archive.org. Internet Archive. Посетено на 12 ноември 2020.

[8] Regis, Camille (June 4, 2019). „Web Archiving: Think the Web is Permanent? Think Again“. History Associates. Посетено на 12 ноември 2020.

[9] Habibzadeh, Parham (July 30, 2015). „Are current archiving systems reliable enough?“. International Urogynecology Journal. 26 (10): 1553. doi:10.1007/s00192-015-2805-7. ISSN 0937-3462. PMID 26224384.

[10] Lyman (2002)

[11] „Legal Deposit | IIPC“. netpreserve.org. Архивирано од изворникот на March 16, 2017. Посетено на 12 ноември 2020.

[12] „WebCite FAQ“. Webcitation.org. Архивирано од изворникот на 2011-09-29. Посетено на 12 ноември 2020.

[13] „Social Media and Digital Communications“ (PDF). finra.org. FINRA.

[Claburn_2020-14] Claburn, Thomas (10 September 2020). „Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps“. The Register (англиски).

[15] Laakso, Mikael; Matthias, Lisa; Jahn, Najko (3 September 2020). „Open is not forever: a study of vanished open access journals“. arXiv:2008.11933 [cs]. Посетено на 12 ноември 2020. Text and images are available under a Creative Commons Attribution 4.0 International License.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]