Орися Демська-Кульчицька

Український національний корпус

The article continues a cycle of author’s publications on corpus linguistics. In offered article is given the definition of the Ukrainian National Corpus and determined its characteristics according to the general list of corpora parameters. Are discussed the problems of size and structure of UNC and described the possible ways of use of Ukrainian National Corpus in modern linguistic researches.

У статті, яка продовжує цикл публікації з корпусного мовознавства, дефінійовано Український національний корпус та визначено його характеристики, згідно із набором стандартних параметрів корпусів, запропоновано вирішення проблеми обсягу і структури для української корпусної побудови й описано можливі шляхи застосування Українського національного корпусу в сучасних лінгвістичних дослідженнях.

 

Лінгвістичне дослідження не залежно від історичного періоду і рівня розвитку мовознавчої науки ґрунтується на мовному матеріалі. Як правило, якість фактичного матеріалу впливає на якість результатів дослідження, тобто чим більший обсяг матеріалу як синхронного, так і діахронного, чим достовірніший цей матеріал, чим більше параметрів залучено до його добору та систематизації, тим ширшою є сфера дії лінгвальних закономірностей і явищ, які вивчаються у кожному конкретному випадку і тим достовірнішими є висновки. Тому не випадково у традиційному мовознавстві головна увага завжди надавалася збору фактичного матеріалу, не кажучи вже про напрямки, у яких збір нових мовних фактів є основним завданням лінгвального опису. Тут можемо говорити про дослідження у діалектології, вивчення неописаних або мало описаних мов, соціо- і термінолектів etc. Проте у межах класичної лінгвістичної традиції збір мовних даних завжди був і залишається складним технічним завданням, оскільки йдеться про ручне довготривале опрацювання письмових текстів, опитування інформаторів, анкетування, створення традиційних лексичних картотек тощо. Так, про складність і довготривалість збору фактичного матеріалу свідчить процес створення лексичної картотеки Словника української мови в 11-и томах, яку було започатковано у 20-х роках минулого століття, а перший том словника побачив світ у 1971 році, тобто фактично через півстоліття. Існують також інші проблеми, пов’язані з традиційним збором мовного матеріалу, зокрема його поновлення, пошук необхідних одиниць у кількамільйонних картотеках, віддалений доступ, або взагалі відсутність його у, так званих, неелектронних базах. І, як слушно зазначає А.Баранов, до появи комп’ютера і відповідного програмного забезпечення для оброблення даних природної мови подолати проблеми, пов’язані зі збором, організацією та доступом до мовного матеріалу для лінгвістичних досліджень, було практично неможливо (Баранов 2001, 116).

Комп’ютерні технології прийшовши у лінгвістику запропонували свої технічні можливості для оформлення, зберігання і пошуку мовного матеріалу на машинних носіях, який може бути організований як база даних, машинний фонд або, останнім часом, корпус текстів. Суттєвою відмінністю нової організації фактичного матеріалу стосовно старих, головно, картотечних принципів його організації є, за словами О. Гердта, „далеко не лише технологічна відмінність, як це може видатися на перший погляд. Це фонди зберігання якісно іншого типу. Це фонди не слів і цитат, а перш за все – цілісних текстів на нових типах носіїв з великим спектром параметрів і входів за кожним із параметрів” (Гердт 1986, 68). На переваги комп’ютерної організації мовних даних щодо так званої паперової організації вказує також У. Френсис (один із авторів першого в корпусній лінгвістиці Браунівського корпусу) і найважливішими аспектами такої переваги вчений вважає, по-перше, звільнення „інших від необхідності самим займатися формуванням корпусів і вводом їх в ЕОМ”, і, по-друге, однократне створення з можливістю багатократного різноаспектного використання „стандартного набору даних, які дозволили би здійснювати порівняльні дослідження” (Френсис 1983, 334), тобто у результаті одноразового введення в ЕОМ тих або інших джерел користувач отримує широкі можливості багаторазового звертання до певної автоматизованої системи з найрізноманітнішими запитами. Крім того, системи такого типу не лише забезпечують межову точність, надійність зберігання всієї інформації, яка міститься у тексті, але дають відповіді, наприклад, на запитання „про всі вживання слова, про всі контексти на кожне слово, на кожну словоформу, про всі типи варіантів як за окремим джерелом, так і за такою або іншою сукупністю джерел” (Гердт 1998, 72).

Для здійснення досліджень української мови в сучасних умовах інформативного суспільства як у діахронному, так і в синхронному аспекті, послуговуючись найновішими методами і технологіями у дослідженнях природних мов на великому за обсягом, репрезентативному мовному матеріалі (що фактично продовжує традицію формулювання теоретичних положень, виходячи з аналізу емпіричного матеріалу), необхідно мати репрезентативний, збережений на електронних носіях, відкритий для доступу мовний матеріал, організований як корпус текстів чи Український національний корпус (УНК).

Зазначимо, що побудова корпусу національного типу довільної мови є предметом дослідження корпусної лінгвістики, яка стрімко розвивається впродовж останніх десятиліть у англо-саксонському, романо-германському, слов’янському та ін. мовознавстві. Про популярність та інтенсивність розвитку корпусної лінгвістики свідчить як чимале число теоретичних і технологічних праць, підручників так і самих корпусів (1). Йдеться про праці Х. Кучери (Francis, Kucera 1979), У. Френсиса (1983), Д.Байбера (Biber 1990, 1992) Дж. Синклера (Sinclair 1994), В. Тойберта (Teubert 2000), Ґ. Кеннеді (Kennedy 1998), Н. Іде (2000), М. Банька (Bańko 1994-1996; 2003), T. Ерявця (Erjavec 2001), Й. Гаїча (Hajič 1998), А. Баранова (2001), С. Шарова (2002), В. Рикова (2001а, 2001б), Л. Ричкової (2002, 2003) та ін. Для лінгвоукраїністики і побудова національного корпусу, і впровадження корпусного мовознавства перебуває на початковому етапі та базується як на теоретичних положення, розроблених для інших національних мов, зокрема для англійської (Brown Corpus, British National Corpus), французької (FRANTEXT), чеської (Českэ Nбrodnн Korpus), польської (Korpus Państwowego Wydawnictwa Naukowego) та російської (Большой корпус русского языка, Национальный корпус русского языка), так і на працях українських комп’ютерних лінгвістів, які розглядають проблеми співзвучні з проблематикою корпусного мовознавства, Т. Грязнухіної (1983), Н. Дарчук (2000), Є. Капріловської (2003), Н. Клименко (1990), В. Перебийніс (1981) В. Русанівського і Н. Клименко (1995),  Пещак (1999) та ін. Крім того, проблематика корпусної лінгвістики є завданням, яке розв’язується у ряді наших статей, наприклад, у „Корпус текстов украинской периодики”, „Базові поняття корпусної лінгвістики” (Демська-Кульчицька 2001, 2003) та ін. І на сьогодні уже розроблено теоретичне обґрунтування положень побудови Українського національного корпусу, що є обов’язковим етапом в укладанні національних корпусів усіх мов і є метою корпусної лінгвістики.

Отже, стоїть завдання з’ясувати: що таке національний корпус і як слід дефініювати Український національний корпус, яким повинен бути його обсяг і структура, яким параметрам відповідати і якою може бути сфера його застосування?

Загальна дефініція корпусу текстів, в тім і національного типу, як об’єкта корпусного мовознавства вкладається у таке формулювання: машиночитане, стандартно подане зібрання репрезентативних для певної мови, діалекту або іншої підмножини мов писемних або усних текстів, призначених для лінгвального аналізу та лінгвістичного опису, відібраних і впорядкованих згідно з експліцитними екстра- та інтралінгвістичними критеріями. Відштовхуючись від наведеного визначення, сформулюємо дефініцію Українського національного корпусу як: організована, систематизована, програмно оброблена сукупність текстів української мови, які є репрезентативними для всіх як історичних, так і географічних варіантів та форм її існування, призначена для лінгвістичного аналізу й технологічного застосування, де говорячи про лінгвістичний аналіз, маємо на увазі академічні лінгвістичні дослідження різних рівнів мовної системи (орфографії, морфології, лексики, синтаксису, семантики etc.), методику викладання мови як рідної і як іноземної, натомість технологічне застосування передбачає використання корпусу з метою побудови машинної мовної моделі як основи для розробок у галузі інформаційних технологій, створення програм автоматичного розпізнавання і синтезу мовлення, забезпечення автоматичних методів перетворення текстової інформації.

Створення національного корпусу передовсім ставить вимогу визначення його обсягу і структури. Традиційно за обсягом текстові корпуси бувають малими, середніми та великими. У класифікації корпусів за обсягом точкою відліку служить Браунівський корпус на: а) 1 млн. слововживань; б) 500 уривків; в) 2 000 слововживань у кожному з уривків. І корпуси з менші, ніж один мільйон слововживань – це малі, від одного мільйона до десяти мільйонів – середні та від десяти і понад сто мільйонів – великі. На сьогодні існує небагато прикладів малих корпусів і практика засвідчує, що створюють головно середні та великі корпуси. Наприклад, до розряду середніх корпусів належать: American Heritage Intermediate (AHI) на 5 млн. слововживань; Esti kirjakeele korpus (корпус текстів естонської мови) на 1 млн. слововживань; а великих: FRANTEXT – один із найбільших французьких лінгвістичних проектів, розпочатий у 1963 році, в межах якого створено корпус обсягом понад 90 млн. слововживань; Bank of English на 320 млн. слововживань; Mannheimer Korpora (корпус німецької мови) обсягом 778 млн. слововживань.

Український національний корпус вважаємо за доцільне будувати як середній і стосовно обсягу дотримуватися такої стратегій його укладання: по-перше, визначити нижню статистичну межу в 1 млн. слововживань, за аналогією до більшості слов’янських національних корпусів; по-друге, передбачити передовсім технологічні можливості перманентного поповнення корпусу текстовими даними; і, по-третє, не ставити обмежень на верхню статистичну межу.

Структуру УНК пропонуємо подати через модель „генеральний корпус – система підкорпусів” де генеральний корпус як одиницю найвищого рівня складають спеціалізовані підкорпуси текстів української мови. Для української мови вважаємо за доцільне спеціалізувати підкорпуси за хронологією, чи історичними періодами розвитку української мови.

Так, залежно від аплікованої періодизації історії української мови, можна виділити різні хронологічні підкорпуси. Пропонуємо скористатися класифікацією, згідно з якою розрізняють давньоукраїнський, ранньоукраїнський та середньоукраїнський періоди і сучасну українську мову (Німчук 1997-1998) в межах якої додатково виділити кінець ХХ – початок ХХІ століття. Таким чином, структура УНК буде:

Виділення останнього періоду мотивовано головно екстралінгвальними чинниками, а саме політичними змінами, наслідком яких стало утворення української держави, і слід би було здійснити дослідження сучасної української мови на предмет: початку нового періоду vs продовження періоду сучасної української мови в її розвитку. Очевидно, що без попереднього дослідження різних – структурного, контрастивного, історичного, функціонального тощо – аспектів мови цього хронологічного відтинку, не можна висловлювати тезу про якісно новий етап у розвитку сучасної української мови, але перевірити цю думку зручніше, якщо паралельно у структурі генерального корпусу поряд з іншими окремо функціонуватиме підкорпус української мови кінця ХХ – початку ХХІ ст.

Стосовно характерних параметрів, корпуси в корпусному мовознавстві прийнято класифікувати як:

  • динамічні / моніторингові vs статичні;
  • дослідницькі vs ілюстративні;
  • загальномовні vs спеціалізовані (діалектні, термінологічні, дитячої мови тощо);
  • синхронні vs діахронні;
  • усної мови vs писемні vs мішані корпуси;
  • повнотекстові vs фрагментні;
  • оригінальні vs перекладні;
  • мономовні vs полімовні;
  • паралельні vs порівняльні;
  • неанотовані vs анотовані;

І, виходячи з цього, визначимо набір індивідуальних характеристик для Українського національного корпусу. Так, УНК слід будувати як корпус:

а) дослідницький: орієнтований на широкий клас лінгвістичних завдань;

б) фрагментний: будується з текстових фрагментів, тобто уривків текстів, відібраних за попередньо детермінованими засадами відбору текстових даних до корпусу;

в) мішаний: передбачено введення текстових фрагментів обидвох варіантів реалізації мовної системи – писемних і усних;

г) динамічний: передбачає константне поповнення множини корпусних текстів;

ґ) синхронно-діахронний: охоплює текстовий матеріал давньоукраїнського (ХІІ – ХIV), ранньоукраїнського (XV – XVІ) і середньоукраїнського (XVІ – XVIII) періодів та сучасну українську мову (ХІХ – ХХІ) з виокремленням періоду кінця ХХ – початку ХХІ ст., організований як система підкорпусів генерального Українського національного корпусу;

д) загальнонародної мови: з урахуванням територіальної специфіки як у межах України, так і за її кордонами;

е) мономовний: тексти, що увійшли до корпусу є результатом мовної діяльності носіїв української мови;

є) морфологічно анотований: усі текстові дані розмічені до рівня слова і кожне слово передбачає маркування частиномовної належності та відповідних морфологічних значень.

І врешті найважливіший аспект – сфера застосування загальномовного корпусу, в тім і УНК. Національний корпус перш за все призначений для забезпечення наукових досліджень лексичної і граматичної структури мови, а також відслідковування динаміки та якості змін у мові протягом певного хронологічного відрізка. Сучасні корпусні технології значно спрощують і прискорюють процедури лінгвістичного опрацювання великих масивів текстів. Якщо у докорпусний період дослідники головно послуговувалися методикою ручного фрагментарного розписування більших або менших текстів, то зараз обмежень на обсяг аналізованого матеріалу і швидкість пошуку інформації у ньому по суті немає, а це означає, що дослідник має можливість працювати з колосальними масивами найрізноманітніших текстів, реалізуючи найскладніший запит. Можна отримати інформацію, зокрема, на такі запити: а) видати весь / всі тексти вказаного автора, б) видати всі тексти / фрагменти тестів за такою тематикою, в) видати мікрореєстр тексту з частотною інформацією про кожне слово, г) видати контексти до слова / слів тощо. Або відповіді на запитання: У яких джерелах, текстах, фрагментах текстів зустрічається певне слово, термін, фразема? Якими є всі форми певного слова, включно з графічними формами? Коли вперше зафіксовано певне слово? Які його історичні варіанти? Загалом інформація, яку можна екстрагувати з електронного корпусу, надзвичайно велика. Наприклад, на базі London-Lund корпусу реалізовано завдання семантизації лексеми good ‘добрий’ в англійській мові. Спочатку, впродовж кількох секунд, що в принципі неможливо без застосування комп’ютерного корпусу, виявлено 800 прикладів вживання аналізованої лексеми у корпусі, обсягом на 1 млн. слововживань. Далі, проаналізовано конструкції, в яких лексема good виступала як ад’єктив, і в результаті експліковано понад 20 значень цієї лексеми, в тім: ‘гарний’ (good moodгарний настрій’), ‘зручний’ (a good dress ‘зручний одяг’), ‘великий’ (a good crowd ‘великий натовп’), ‘такий, що приносить задоволення’ (a good film ‘фільм, від перегляду якого отримано задоволення’), ‘високоякісний’ (a good car ‘високоякісна машина’), ‘досвідчений’ (a good cook ‘досвідчений кухар’) ‘смачний’ (a good meal ‘смачна їжа’), ‘гарний’ (good weather ‘гпрна погода’), ‘добрий’ (be good ‘будь добрим’), ‘дійсний’ (the licence is good ‘дійсна ліцензія’), ‘чудовий’ (a good report ‘чудова доповідь’). Крім того, good також зафіксовано у контекстах, де це слово виступає структурним елементом вигука: Good heavens! ‘Святі небеса’, констатує кінець комунікації, чи зміну теми розмови: Good, let’s leave it at that ‘Добре, давайте залишимо це як є’ тощо.

Інший приклад досліджень, реалізованих на цьому ж корпусі: визначення статистичних характеристик слів, залежно від їхніх частиномовних характеристик:

Лексико-граматичний клас

Відсоток

Дієслова

20,1%

Займенники

17,3%

Іменники

14,3%

Дискурсні одиниці

9,4%

Прийменники

9,2%

Прикметники

9,0%

Детермінанти

7,9%

Сполучники

6,3%

Прислівники

6,0%

Призайменники

0,3%

Інше

0,2%

А одним із прикладів граматичних досліджень (зауважимо – надзвичайно простим і невеликим за обсягом як результатів, так і кількістю виконаних робіт) здійснених на LOB корпусі є визначення граматичної ролі прислівників more ‘більш / більше’ і less ‘менш / менше’ в англійські мові:

Граматична роль

more ‘більше’

less ‘менше’

Субмодифікація

more/less + прикметник

28,34%

25,00%

more/less + прикметник + then (‘тоді’)

8,33%

10,52%

more/less + прислівник

6,31%

4,16%

more/less + прислівник + then

1,87%

0,87%

Детермінація

more/less + іменник

11,48%

7,22%

more/less + іменник + then

3,15%

2,63%

Проформи

27,7%

30,92%

Фіксовані конструкції

5,93%

12,91%

Інші

6,89%

5,77%

Всього

100,0%

100,00%

Сферу застосування Українського національного корпусу на початках його експлуатації можна розглядати як реалізацію таких корпусно-базованих досліджень української мови:

а) морфологічних, де передовсім слід визначити квантитативні характеристики слів з різним лексико-граматичним значенням у мові як синхронно (аналіз підкорпусу сучасної української мови), так і діахронно (аналіз підкорпусів давньоукраїнського і / або середньоукраїнського періодів); вивчити структуру і лексико-граматичну семантику іменних та дієслівних форм і їх реалізацію у різних синтаксичних конструкціях; експлікувати і описати реальну іменну та дієслівну прийменникову і безприйменникову колокацію в українській мові різних періодів її функціонування;

б) синтаксичних – встановити максимальну vs мінімальну vs оптимальну довжину українського речення, порядок слів у реченні української мови, дослідити функціонування активних і пасивних конструкцій в динаміці;

в) лексикографічних – де факто лексикографія детермінувала корпусний принцип організації даних природної мови, але лише поява машиночитаних корпусів реально уможливила швидке виконання лексикографічних завдань, про що, зокрема, говорять Т. Макенрі й А. Вилсон: „лінгвіст, який має до своєї диспозиції корпус або інше машиночитане зібрання текстів, може викликати всі приклади на всі необхідні слова або фрази з багатомільйонних текстових корпусних ресурсів впродовж кількох секунд” (McEnery, Wilson 1996, 43), що дозволяє укладання словників і їх перегляд набагато швидше, ніж у, так званий, докорпусний період, і таким чином, подання сучасної інформації про мову. Крім того, виходячи з корпусних можливостей, можна поглибити або розширити словникові дефініції, оскільки корпус забезпечує значно більше число реальних мовних прикладів, які можна легко пересортовувати і об’єднувати у групи для здійснення того чи іншого аналізу. Не кажучи уже про можливість, за умови використання даних моніторного корпусу, фіксувати неологізми, розширювати або звужувати значення слова або баланс між вживанням лексичних одиниць, залежно від стилю і жанру конкретного тексту.

Про продуктивність підходу до експлуатації корпусу в українській комп’ютерній лексикографії говорить Б. Бабич, який зазначає, що „укладення комп’ютерного синтаксичного словника української мови значною мірою може бути здійснене автоматично за умови, якщо тексти тлумачного словника та репрезентативний масив українських текстів різного жанру буде записано на машинні носії” (Бабич 2002, 36).

г) контрастивний аналіз варіантів української мови.

Українській мові завжди була притаманна поліваріантність. По-перше, довгий період існує два варіанти літературної мови, про що говорить Ю.Шевельов: „літературна українська мова тепер існує у двох варіантах: у Радянській Україні літературна норма за урядового сприяння й принуки систематично зазнає перероблення, що наближає її до російської. Ця норма застосовується також до української мови у країнах радянського блоку. Натомість за межами цього блоку зберігає чинність попередня норма” (Шевельов 2000, 123). Отже, маємо варіанти української літературної мови України та діаспори, а в, так званому, діаспорному варіанті диференціацію залежно від соціалістичної vs несоціалістичної орієнтації країни проживання українців. По-друге, і нині існує три територіальні діалектні групи (враховуючи етнічні землі) української мови: 1) північна; 2) південно-західна; 3) південно-східна. І якщо диференційні та інтеграційні ознаки територіальних діалектів та їх говірок вивчені й описані в українському мовознавстві достатньо добре, то не можемо констатувати факт широкого вивчення та опису диференційно-інтеграційних аспектів українського і діаспорного варіантів української літературної мови. Це й зумовило введення в УНК текстів української мови, створених як в Україні, так і за її межами. А охоплення різних форм і варіантів української мови може зумовити його використання у мовному пануванні, формуванні мовної політики, організації антинівеляційного захисту сучасної української мови.

ґ) методики викладання української мови як рідної та іноземної, де корпусні дані та можливість швидкого різнорівневого пошуку забезпечать дидактичний матеріал для аналізу і засвоєння граматичних та лексичних знань учнями і студентами, а, крім того, завдяки здатності викликати комбінації слів, а не індивідуальні слова, учень або студент має змогу детальніше вивчити синтагматичні реляції між різними мовними одиницями.

Загалом, як засвідчують досягнення корпусно-базованих досліджень у англо-саксоністиці, романістиці, германістиці, частині славістики, корпусно-базовані дослідження мають ряд переваг щодо класичних, реалізованих без корпусу текстів і корпусного інструментарію. Це, по-перше, швидкість екстрагування та сортування / пересортування великої за обсягом лінгвальної інформації. По-друге, великі обсяги інформації. По-третє, набір даних, які уможливлюють дослідження як мовної системи, так і її реалізації у достатньо широкому синхронно-діахронному спектрі. По-четверте, можливість багатократного звертання до корпусу з найрізноманітнішими запитами за інтра- та екстралінгвальною інформацією про українську мову. І, по-п’яте, забезпечення межової точності та надійності зберігання всієї інформації, яку містить текст.

Отже, оскільки лінгвістичне дослідження не залежно від історичного періоду і рівня розвитку мовознавчої науки ґрунтується на мовному матеріалі, а корпусні методики уможливлюють збір, опрацювання, зберігання великих за обсягом текстових масивів та забезпечують межову швидкість екстрагування лінгвальної інформації з них, то побудова загальномовного електронного корпусу текстів для національної мови є не лише бажаною, але й необхідною для здійснення як класичних досліджень мови на базі кількісно іншого мовного матеріалу, який забезпечує корпус, так і вивчення, аналіз, опис мови у контексті нових напрямків, у нашому випадку корпусної лінгвістики. Важливо, що корпусно-базовані дослідження мови через обсяг аналізованого матеріалу (мільйони слововживань) і технічні можливості корпусного інструментарію здатні виявити такі мовні реалії, про які донедавна вчені навіть не підозрювали.

Для лінгвоукраїністики, застосуванню корпусних методик лінгвального дослідження повинно передувати створення Українського національного корпусу, яке починається із дефініції об’єкта, визначення його обсягу, структури та мети побудови.

Література:

  1. Баранов А. Н. (2001) Введение в прикладную лингвистику. – М.
  2. Герд А. С. (1986) Типы русских текстов и организация машинного фонда русского языка // Машинный фонд русского языка: идеи и суждения. – Москва.
  3. Грязнухіна Т.О. (1983) Лінгвістичне забезпечення автоматичних систем управління // Мовознавство. – №5.
  4. Демская-Кульчицкая О.М. (2001) Корпус текстов украинской периодики // Исследование славянских языков в русле традиций сравнительно-исторического и сопоставительного языкознания // Информационные материалы и тезисы докладов международной конференции. – М.
  5. Демська-Кульчицька О.М. (2003) Базові поняття корпусної лінгвістики // Українська мова. – №1.
  6. Карпіловська Н.Є. (2003) Вступ до комп’ютерної лінгвістики. – Донецьк.
  7. Клименко Н.Ф. (1990) Построение тезауруса с помощью ЭВМ // Украинский семантический словарь. Проспект. – К.
  8. Німчук В.В. (1997-1998) Періодизація як напрямок дослідження генезис та історії української мови // Мовознавство. – № 6, 1
  9. Перебийніс В.С. (1981) Теоретичні та прикладні проблеми структурно-математичної лінгвістики // Мовознавство. – №4.
  10. Пещак М.М. (1999) Нариси з комп’ютерної лінгвістики. – Ужгород.
  11. Рыков В. (2001а) Корпус текстов как реализация объектно-ориентированной парадигмы. – http://rykov-cl.narod.ru/http://rykov-cl.narod.ru.
  12. Рыков В. (2001б) Корпусная лингвистика. – http://rykov-cl.narod.ru/lekcii.doc.
  13. Рычкова Л.В. (2002) Корпусная лингвистика: лексикографический аспект // Слово и словарь. – Гродно.
  14. Френсис У. Н. (1983) Проблемы формирования и машинного представления большого корпуса текстов // Новое в лингвистике. – Вып. XIV.
  15. Шаров С. А. (2002) Большой Корпус русского языка. – www.bokrcorpora.narod.ru.
  16. Bańko M. (2003) Korpus PWN. – Warszawa: PWN.
  17. Bańko M. (2003) Korpus tekstów jako źródło wiedzy o języku: Tekst wykładu na sesji MSH Uniwersytetu Warszawskiego. – Watszawa.
  18. Erjavec T. (2001) The ELAN Slovene-English Aligned Corpus. – http://nl.ijs.si.
  19. Francis W. N., Kucera H. A (1979) Standard Corpus of Present-Day Edited American English (Brown corpus). – Providence: Brown University.
  20. Hajič J. (1998) Building a Syntactically Annotated Corpus: the Prague Dependency Treebank // Issue of Valiancy and Meaning. – Prague.
  21. Ide N. (2000) Corpus Encoding Standard. – http://lpl.univ.-aix.fr/projects/multext/CES.
  22. Kennedy G. (1998) Introduction to Corpus Linguistics. – London-New-York.
  23. Sinclair J. (1994) Corpus Typology Draft. – http://www.icl.pi.cnr.it/EAGLES96/typology.
  24. Teubert W. (2000) Corpus Linguistics – a Partisan View // International Journal of Corpus Linguistics. – Vol. 5, No.1.

Примітки:

1. У мережі Інтернет існує чимало сторінок, на яких виставлено переліки корпусів текстів природних мов. Подаємо один з них, як ілюстрацію динамічного розвитку корпусної лінгвістики, наслідком чого є, зокрема, існування найрізноманітніших корпусів текстів природних мов.

Багатомовні корпуси:

  • The ECI Multilingual Corpus I - Multilingual Corpus I (ECI/MCI) of over 98 million words, covering most of the major European languages, as well as Turkish, Japanese, Russian, Chinese, Malay and more.
  • CRATER Multilingual Aligned Annotated Corpus

Паралельні корпуси:

Корпуси англійської мови:

Історичні корпуси англійської мови:

Корпуси німецької мови:

Корпуси французької мови:

Корпуси іспанської мови:

Корпуси португальської мови:

Корпуси турецької мови:

Корпуси шведської мови:

Корпуси російської мови:

Корпуси івриту:

Корпуси китайської мови:

 

На Растку објављено: 2008-02-22
Датум последње измене: 2008-02-22 20:53:04
Спонзор хостинга
"Растко" препоручује

IN4S Portal

Плаћени огласи

"Растко" препоручује