Корпус лингвистика

Корпус лингвистика е емпириски метод за проучување на јазикот по пат на текст корпус (множина корпуси). Корпусите се урамнотежени, често стратифицирани збирки на автентичниот, „реален свет“, текст на говор или пишување кој има за цел да претстави одредена лингвистичка разновидност. Денес, корпусите се генерално машински-читливи збирки на податоци.

Корпус лингвистиката ја предложува доверливата анализа на јазикот која е поизводлива со корпуси кои се собрани на терен - природен контекст именуван („реалиа“) на тој јазик - со минимално експериментално мешање. Големите збирки на текстови, иако корпусите може да се и мали во однос на зборовите што се водат, им овозможуваат на лингвистите да вршат квантитативни анализи на лингвистичките концепти кои можат да бидат тешки за тестирање на квалитативен начин.

Текст-корпус методот го користи ,,телотo'' на текстовите на некој од природните јазици со цел да го изведе сетот на апстрактни правила кои го регулираат јазикот. Тие резултати може да бидат искористени за да се истражат врските помеѓу тој предметен јазик и другите јазици подложни на слична анализа. Првите такви корпуси беа рачно изведени од изворни текстови, но сега таа работа е автоматизирана.

Корпусите не се користат само за лингвистичко истражување, од 1969 година тие сè повеќе се користеа за составување речници (почнувајќи од Американскиот речник за наследтство на англискиот јазик во 1969 година) и референтни граматики, со Сеопфатната граматика на англискиот јазик, публицирана во 1985 година, како прва.

Експертите од областа имаат разликувачки ставови за прибелешката на корпусот. Овие гледишта се поттикнати од Џон МекХарди Синклер, кој се позанимавал со минималната прибелешка, за текстовите да зборуваат сами за себе, па сè до тимот на Survey of English Usage ( Универзитетски колеџ, Лондон), кој се занимава со прибелешката за овозможување на супериорно лингвистичко разбирање преку ригорозно снимање.

Историја

уреди

Најраните напори за граматички опис беа засновани на дел од корпусите од особено религиозно или културно значење. На пример, литературата на Пратишакја ги опиша звучните обрасци на санскрит како што се наоѓа во Ведите, а граматиката на класичниот санскрит на Панини се базира на дел од анализата на истиот корпус. Слично, раните арапски граматичари посветиле особено внимание на јазикот на Куранот . Во западноевропската традиција, научниците подготвувале конкорданси со цел да дозволат детално проучување на јазикот на Библијата и останатите канонски текстови.

Англиски корпуси

уреди

Значаен момент во современата корпусна лингвистика беше објавувањето на "Computational Analysis of Present-Day American English" во 1967 година. Автори на делото се Хенри Кучера и В. Нелсон Франсис, а истото се базираше на анализа на Брауновата корпуса, која претставува структуриран и балансиран корпус од еден милион зборови од американски англиски од 1961 година. Корпусот содржи 2000 текстуални примероци од различни жанрови. Брауновата корпуса била првиот компјутеризиран корпус создаден за лингвистички истражувања. Кучера и Франсис ја подложиле Брауновата корпуса на разни компјутерски анализи и ги комбинирале елементите на лингвистиката, наставата по јазици, психологијата, статистиката и социологијата за да создадат богато и разновидно дело.Друг клучен труд беше објавувањето на Рандолф Квурк во 1960 година, "Towards a Description of English Usage",каде што го воведе "Анкетата за англиска употреба"(Survey of English Usage). Корпусот на Квурк беше првиот модерен корпус создаден со цел да го претстави целиот јазик.  

Наскоро потоа, издавачот од Бостон, Хаутон-Мифлин, му се обрати на Кучера за да обезбеди база од милион зборови со три реда цитати за нивниот нов "Американски херитиџ речник"(American Heritage Dictionary), кој беше првиот речник составен со користење на корпусна лингвистика. Овој речник направи иновативен чекор комбинирајќи прескриптивни елементи (како треба да се користи јазикот) со дескриптивни информации (како всушност се користи).

 Други издавачи го следеа примерот. Британскиот издавач "Collins"го создаде еднојазичниот речник "COBUILD"за учесници кои учат англиски како странски јазик, користејќи го "Bank of English".Корпусот од Анкетата за англиска употреба беше употребен при развојот на еден од најважните корпусно-базирани граматики, кој беше напишан од Квурк и соработниците и објавен во 1985 година како "A Comprehensive Grammar of the English Language".

Брауновата корпуса инспирираше создавање на повеќе слично структурирани корпуси, како што се:  

- "LOB корпус" (британски англиски од 1960-тите),  

- "Колхапур корпус" (индиски англиски),  

- "Велингтон корпус" (новозеландски англиски),  

- "Австралиски корпус на англискиот јазик" (австралиски англиски),  

- "Frown корпус" (американски англиски од раните 1990-ти),  

- "FLOB корпус" (британски англиски од 1990-тите). Покрај тоа, постојат корпуси што претставуваат многу јазици, варијанти и начини, како што се "Меѓународниот корпус на англискиот јазик" и "Британскиот национален корпус". Последниот е колекција од 100 милиони зборови од различни пишани и говорни текстови, создаден во 1990-тите од конзорциум на издавачи, универзитети (Оксфорд и Ланкастер) и Британската библиотека. За современиот американски англиски, работата на "Американскиот национален корпус" застојува, но корпусот "Corpus of Contemporary American English" (со над 400 милиони зборови од 1990 година до денес) сега е достапен преку веб интерфејс.  

Првиот компјутеризиран корпус на транскрибиран говорен јазик беше создаден во 1971 година од проектот "Montreal French Project", со еден милион зборови, кој го инспирираше многу поголемиот корпус на Шана Поплак за говорен француски јазик во областа Отава-Хул.

Мултилингвални корпуси

уреди

Во 1990-тите, многу од значајните рани успеси во статистичките методи за природно јазично програмирање (NLP) се случија во областа на машинскиот превод, особено благодарение на работата во IBM Research. Овие системи беа способни да ја искористат постоечката мултилингвална текстуална корпуса која беше произведена од Парламентот на Канада и Европската унија како резултат на закони што бараа превод на сите владини состаноци на сите официјални јазици на соодветните системи на владеење.Постојат и корпуси на неевропски јазици. На пример, Националниот институт за јапонски јазик и лингвистика во Јапонија изградил неколку корпуси на говорен и писмен јапонски. Корпуси на знаковен јазик исто така биле создадени користејќи податоци од видео.

Корпуси на антички јазици

уреди

Покрај овие корпуси на живи јазици, компјутеризирани корпуси биле создадени и од збирки текстови на антички јазици. Пример за тоа е базата на податоци Andersen-Forbes за Хебрејската Библија, развивана од 1970-тите, во која секоја клаузула е парсирана користејќи графови што претставуваат до седум нивоа на синтакса, а секој сегмент е означен со седум полиња информации. Quranic Arabic Corpus е аннотиран корпус за класичниот арапски јазик на Куранот. Овој проект е неодамен и вклучува повеќеслојно аннотативно обележување, вклучувајќи морфолошка сегментација, означување на делови од говорот и синтаксичка анализа користејќи зависничка граматика. Digital Corpus of Sanskrit (DCS) е "корпус на санскритски текстови со раздвоени „сандхи“ со целосна морфолошка и лексичка анализа дизајниран за истражување на текстовите во санскритската лингвистика и филологија."

Корпуси од специфични области

уреди

Покрај чисто лингвистичкото истражување, истражувачите почнале да ја применуваат корпусната лингвистика на други академски и професионални области, како што е новата поддисциплина ,,Право и Корпусна Лингвистика'', која има за цел да ги разбере правните текстови користејќи корпусни податоци и алатки. DBLP Discovery Dataset се концентрира на компјутерски науки, содржи релевантни публикации од областа на компјутерските науки со сензитивни метаподатоци, како што се авторските афилијации, цитирања или области на студии. Пофокусирана збирка на податоци беше претставена од страна на NLP Scholar, комбинација на трудови од ACL Anthology и метаподатоци од Google Scholar. Корпусите исто така можат да помогнат во напорите за превод или во учењето странски јазици.

Методи

уреди

Корпусната лингвистика создала бројни методи на истражување, кои се обидуваат да го следат патот од податоци до теорија. Wallis и Nelson (2001) први ја воведоа т.н. 3A перспектива: Аннотација, Апстракција и Анализа.

  • Прибелешката се состои од примена на шема на текстовите. Прибелешките можат да вклучуваат структурно маркирање, означување на делови од говорот, парсирање и бројни други претстави. Апстракцијата се состои од преводот (мапирање) на термините во схемата на термини во теоретски мотивиран модел или збирка на податоци.
  • Апстракцијата обично вклучува пребарување насочено од лингвист, но може да вклучува, на пример, учење на правила за парсери.
  • Анализата се состои од статистичко испитување, манипулирање и генерализирање од збирката на податоци. Анализата може да вклучува статистички евалуации, оптимизација на бази на правила или методи за откривање знаење.

Повеќето лексички корпуси денес се означени со делови од говорот (POS-означени). Сепак, дури и лингвистите кои работат со „неаннотиран обичен текст“ неизбежно применуваат некоја метода за изолирање на значајни термини. Во такви ситуации, прибелешката и апстракцијата се комбинираат во лексичко пребарување.

Предноста на објавувањето прибележан корпус е тоа што други корисници можат потоа да спроведуваат експерименти на корпусот (преку менаџери на корпуси). Лингвистите со други интереси и различни перспективи од оние на иницијаторите можат да ја искористат оваа работа. Споделувајќи податоци, корпусните лингвисти можат да го третираат корпусот како место за лингвистичка дебата и понатамошни студии.

Исто така види

уреди
  • Лингвистички атлас на раниот среден англиски јазик
  • Колокација
  • Колоструктурна анализа
  • Согласност ( клучен збор во контекст )
  • Клучен збор (лингвистика)
  • Конзорциум за лингвистички податоци
  • Список на текстуални корпуси
  • Машински превод
  • Прирачник за природен јазик
  • Граматика на шаблони
  • Пребарувачи : тие пристапуваат до „веб корпусот“
  • Семантичка прозодија
  • Говорниот корпус
  • Текст корпус
  • Преведувачка меморија
  • Treebank (Брег на дрво)
  • Список со зборови

Белешки и референци

уреди

Мејер, Чарлс Ф. (2023). Англиски корпус лингвистика (второ издание). Кембриџ: печат на универзитетот во Кембриџ. стр. 4. Хунстон, С. (1 јануари 2006), „Corpus Linguistics“, во Браун, Кит (уред.),Енциклопедија на јазик и линвистика (второ издание), Оксофорд:Елсевиер, стр. 234–248, doi:10.1016/b0- 08-044854-2/00944-5, ISBN 978-0-08-044854-1, преземено на 31 октомври 2023 година

Sinclair, J. „Автоматска анализа на корпуси“, во Свартвик, J. (уред.) Насоки во корпус лингвистика (Зборник на трудови од Нобеловиот симпозиум 82). Берлин: Мутон де Грујтер. 1992 година.

Валис, С. ' прибелешка, пронаоѓање и експериментација', во Меурман-Солин A. & Nurmi, A.A. (уред.) Забелешка за варијација и промена. Хелсинки: Вариенг, [Универзитет во Хелсинки]. 2007. е-Објавено

Френцис, В. Нелсон; Кучера, Хенри (1 јуни 1967 година). Компјутерска анализа на денешниот американски англиски јазик. Промисла: кафеав универитетски печат. ISBN 978-0870571053.

Кенеди, Г. (1 јануари 2001 година), „Корпус лингвистика“, во Смелсер, Нил Ј.; Балтес, Паул Б. (eds.), Интернационална енциклопедија на општествените и одноцни науки, Оксфорд: Пергамон, стр. 2816–2820, ISBN 978-0-08-043076-8, преземено на 31 октомври 2023 г.

Квирк, Рандолф (ноември 1960 година). „Кон опис на англиската употреба“. Трансакции на Филолошкото друштво. 59 (1): 40–61. doi:10.1111/j.1467-968X.1960.tb00308.x.

Кенеди, Г. (1 јануари 2001 година), „Корпус лингвистика“, во Смелсер, Нил Ј.; Балтес, Паул Б.. (eds.), Интернационална енциклопедија на општествените и одноцни науки, Oxford: Пергамон, стр. 2816–2820, doi:10.1016/b0-08-043076-7/03056-4, ISBN 978-0- 08-043076-8, преземено на 31 октомври 2023 година

Квирк, Рендолф; Гринбаум, Сиднеј; Гринбаум, Џефри; Свартвик, Јан (1985). Сеопфатна граматика на англискиот јазик. Лондон: Лонгмен. ISBN 978-0582517349.

Санкоф, Дејвид; Санкоф, Џилијан (1973). Darnell, R. (уред.). „Примерок методи на анкета и компјутерски асистирана анализа во проучувањето на граматичките варијации“. Канадските јазици во нивниот социјален контекст. Едмонтон: Инкорпорирани лингвистичко истражување: 7–63.

Поплак, Шана (1989). Фасолд, Р. Шифрин, D. (уред.). „Грижа и ракување со мега-корпус“. Јазична промена и варијација. Актуелни прашања во лингвистичката теорија. 52. Амстердам: Бенџаминс: 411–451. doi:10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.

„Национален центар за знаковен јазик и ресурси со гестови при Б.У. www.bu.edu. Преземено на 31 октомври 2023 година.

Андерсен, Френсис И.; Форбс, А. Дин (2003), „Визуализирана хебрејска граматика: I. синтакса“, Антички блискоисточни студии, кн. 40, стр. 43–61 [45]

Ејланд, Е. Ен (1987), „Откритија од брои зборови“, во Њуинг, Едвард Г.; Конрад, Едгар В. (уред.), Перспективи на јазикот и текстот: есеи и песни во чест на шеесеттиот роденден на Френсис I. Андерсен, 28 јули 1985 година, Винона Лејк, ИН: Ајзенбраунс, стр. 51, ISBN 0-931464-26-9

Дјукс, К., Атвел, Е. и Хабаш, Н. „Надгледувана соработка за синтаксичка прибелешка на куранскиот арапски јазик“. Јазични ресурси и весник за евалуација. 2011 година.

„Дигитален корпус на санскрит (DCS)“. Преземено на 28 јуни 2022 година.

Вел, Јан Филип; Руас, Тери; Мохамад, Саиф; Гип, Бела (2022). „Д3: Огромно збир на податоци од научни метаподатоци за анализа на состојбата на истражувањето на компјутерските науки“. Зборник на трудови од Тринаесеттата конференција за јазични ресурси и евалуација. Марсеј, Франција: Европско здружение за јазични ресурси: 2642–2651. архив: 2204.13384.

Мохамад, Саиф М. (2020). „НЛП научник: Збир на податоци за испитување на состојбата на истражувањето на НЛП“. Зборник на трудови од Дванаесеттата конференција за јазични ресурси и евалуација. Марсеј, Франција: Европско здружение за јазични ресурси: 868–877. ISBN 979-10-95546-34-4.

Бернадини, С. (1 јануари 2006), „Machine Readable Corpora“, во Браун, Кит (уред.), Енциклопедија на јазикот и лингвистиката (второ издание), Оксфорд: Елсевиер, стр. 358–375, doi:10.1016/b0 -08-044854-2/00476-4, ISBN 978-0-08-044854-1, преземено на 31 октомври 2023 година

Мајнц, Јоханес Гутенберг-Универзитет. "Corpus Linguistics | АНГЛИСКА ЛИНГВИСТИКА". Јоханес Гутенберг-Универзитет Маинз (на германски). Преземено на 31 октомври 2023 година.

Валис, С. и Нелсон Г. Откривање на знаењето во граматички анализирани корпуси. Рударство на податоци и откривање на знаење, 5: 307-340. 2001 година.

Бејкер, Пол; Егберт, Џес, едс. (2016). Трианглирање на методолошки пристапи во корпус-јазично истражување. Њујорк: Рутлеџ.

Понатамошно читање

уреди

Книги

уреди
    1. Бибер, Д, Конрад, С., Репен Р. Корпусна лингвистика, Истражување на структурата и употребата на јазикот, Кембриџ: Кембриџ Универзитетска преса, 1998. ISBN 0-521-49957-7
    2. McCarthy, Д., и Сампсон Г. Корпусна лингвистика: Читања во проширувачка дисциплина, Континуум, 2005. ISBN 0-8264-8803-X
    3. Фачинети, Р. Теоретски опис и практични апликации на лингвистичките корпуси. Верона: КвиЕдит, 2007 ISBN 978-88-89480-37-3
    4. Фачинети, Р. (уред.) Корпусна лингвистика 25 години. Њујорк/Амстердам: Родопи, 2007 година ISBN 978-90-420-2195-2
    5. Фачинети, Р. и Рисанен М. (уред.) Корпусно-базирани студии на диахронија на англискиот јазик. Берн: Питер Ланг, 2006 ISBN 3-03910-851-4
    6. Лендерс, В. Компјутерска лексикографија и корпусна лингвистика до околу 1970/1980, во: Gouws, R. H., Heid, U., Швајкард, W., Wiegand, H. E. (уред.) Речници – Меѓународна енциклопедија на лексикографијата. Дополнителен том: Неодамнешни случувања со фокус на електронската и компјутерската лексикографија. Берлин: De Gruyter Mouton, 2013 ISBN 978-3112146651
    7. Фус, Ерик и сор. (уред.): Граматика и корпус 2016, Хајделберг: Издавачка куќа на Хајделберг Универзитет, 2018. doi:10.17885/heiup.361.509 (дигитален отворен пристап).
    8. Стефанович А. 2020. Корпусна лингвистика: Водич за методологијата. Берлин: Language Science Press. ISBN 978-3-96110-225-9, doi:10.5281/zenodo.3735822 Отворен пристап линк.

Серии на книги

уреди

Сериите на книги во оваа област вклучуваат:

Јазик и компјутери (Брил);

Студии во корпусна лингвистика (Џон Бенјаминс);

Англиска корпусна лингвистика (Петер Лангс);

Корпус и дискурс (Блумсбури);

Списанија

уреди

Постојат неколку меѓународни рецензирани списанија посветени на корпус лингвистиката, на пример:

  • Корпуси;
  • Корпус лингвистика и лингвистичка теорија;
  • ICAME списание;
  • Интернационално списание на корус лингвистиката;
  • Јазични ресурси и весник за евалуација, поддржан од Европската асоцијација за јазични ресурси;
  • Истражување во корпус лингвистика, поддржано од Шпанското здружение за корпус лингвистика (AELINCO).

Надворешни врски

уреди
  • Пенн парсирана корпора на историски англиски јазик.