КОРПУСНА ЛІНГВІСТИКА: ІСТОРИЧНА ПЕРСПЕКТИВА  ТА СУЧАСНИЙ СТАН

УДК 81’33

В.В. Жуковська,

кандидат філологічних наук, доцент

кафедри міжкультурної комунікації

Житомирського державного

університету імені Івана Франка

Корпусна лінгвістика: історична перспектива

та сучасний стан

Одним із пріоритетних напрямків сучасних прикладних лінгвістичних досліджень є корпусна лінгвістика. Корпусні студії зосереджуються на аналізі природної мови в умовах реального функціонування з використанням комп’ютерних технологій на основі великих за обсягом, ретельно відібраних та впорядкованих текстових корпусів [9: 548]. Базуючись головним чином на емпіричному підході до аналізу лінгвального матеріалу, корпусні дослідження дозволяють абстрагуватися від суб’єктивності дослідника й наблизитися до об’єктивного вивчення мови. Певною мірою корпусні студії змінюють пріоритети сучасних лінгвістичних досліджень і демонструють виразну переорієнтацію об’єкта дослідження з «системи» на «узус», з «мови» на «мовлення».

Пройшовши складний шлях від практично повного неприйняття в 60-70-ті роки ХХ століття до магістрального напряму науки про мову ХХІ століття, корпусна лінгвістика по праву визнається самостійною галуззю прикладного мовознавства з власним предметом, об’єктом і метою дослідження, термінологічним апаратом, теоретичним і практичним підґрунтям, власними дослідними прийомами [1: 122; 2: 8, 12]. Російський лінгвіст, професор Володимир Олександрович Плунгян переконаний, що корпусна лінгвістика – це не просто наука про те, як створювати корпуси і як ними користуватися, а певна ідеологія, основні тенденції якої зародилися ще в класичній філології ХІХ століття, але значно інтенсифікувалися в останні десятиліття. Корпусна лінгвістика пропонує новий погляд на мову, яка, на думку вченого, і сама є корпусом [5; 6].

Метою даної статті є опис основних етапів в історії становлення корпусної лінгвістики: від перших лінгвістичних проектів, здійснених на основі великих масивів реальних текстів, до сьогодення. Звичайно, багатовікова традиція застосування емпіричного підходу до дослідження лінгвальних даних не може бути ґрунтовно висвітлена в межах однієї статті, тому автор не претендує на вичерпне розкриття цієї теми, що може стати предметом окремої наукової розвідки, а лише висвітлить основні віхи в розвитку корпусних досліджень.

Традиційно вважається, що активне становлення корпусної лінгвістики тісно пов’язане з розвитком комп’ютерних технологій та почалося в 60-х роках ХХ століття. Утім, слід зауважити, що масштабні емпіричні дослідження мови здійснювалися й у більш ранні періоди розвитку мовознавчої науки, адже будь-яка лінгвістична розвідка так чи інакше базується на аналізі мовного матеріалу. У традиційному мовознавстві збору матеріалу завжди приділялося багато уваги [1: 112].

На сьогоднішній день машиночитаність вважається однією з визначальних характеристик текстового корпусу природної мови. Але, як зауважує Я. Свартвік [14: 12], в історії створення корпусів був і «кам’яний вік», або докомп’ютерний період, коли корпуси укладалися вручну на папері. По суті, ці перші паперові доелектронні корпуси представляли собою конкорданси, тобто алфавітні списки всіх ужитих у певному тексті/текстах слів у контекстному оточенні. Укладання таких паперових корпусів-конкордансів займало багато часу та вимагало напруженого аналізу, який здійснювався вручну. Найвагомішу роль доелектронні корпуси відіграли в таких лінгвістичних проектах як укладання конкордансів Біблії й літературних творів, а також написання граматик і словників [12: 1].

Конкорданси Біблії були першими серйозними корпусними дослідженнями лінгвістичного матеріалу. Дослідники Біблії та їхні помічники уважно проглядали сторінку за сторінкою, рядок за рядком і вручну індексували всі слова. Етимологія латинського слова concordantia – згода, відповідність (con – від прийменника cum означає „з”; cor – „серце”) пов’язана з початковим ідеологічним підтекстом цієї трудомісткої діяльності, а саме підтвердити, що Біблія – це гармонійне божественне послання, а не збірка текстів із розрізнених джерел [10: 3].

Ім’я францисканця Антонія Падуанського (1195-1231 рр.) пов’язується з першим відомим (анонімним) конкордансом Біблії (the Concordantiae Morales), укладеного на основі Вульгати (латинського перекладу Біблії 5 ст.). Відомою працею того ж періоду є конкорданс кардинала Хьюго де С. Каро, який у 1230 році з допомогою 500 монахів-домініканців у монастирі Сент-Джеймс у Парижі уклав покажчик слів Вульгати. З того часу було укладено ще низку конкордансів Біблії: a Hebrew Concordance, укладений Ісаком Натаном бен- Калонімусом у 15 столітті, а також конкорданс Александра Крудена (A Complete Concordanсe to the Holy Scriptures) (18 століття) та конкорданс Іакова Стронга (Exhaustive Concordance of the Bible), опублікований у 1890 році.

Дещо згодом услід за конкордансами Біблії почали з’являтися конкорданси літературних творів. Наприклад, конкорданс праць У. Шекспіра Ендрю Бекета (A Concordance of Shakespeare) (1787 р.), конкорданс праць Дж. Чосера, що був укладений у 1871 році, проте зважаючи на трудомісткість опублікований лише у 1927 році.

Крім конкордансів корпуси текстів також використовувалися для укладання ранніх граматик. Як зазначає Ч. Мейер [12: 3], навіть перші ранні відомі граматики класичних мов також можна вважати написаними на основі корпусів тестів, наприклад у 4 столітті до н.е. граматика Паніні описувала мову Ведів (Санскрит), яка збереглася лише в корпусі ведичних текстів. Аристон Алекасандрійський, грецький учений 1 століття у своїй праці «Неграматичні слова» описав нерегулярні граматичні конструкції в корпусі текстів Гомера.

Ранні граматики англійської мови також базувалися на класичній традиції використовувати в якості прикладів цитати з реальних текстів, особливо з художніх творів, наприклад, граматика Роберт Лоуса «A Short Introduction to English Grammar» (1762 р.). Семитомна праця Отто Єсперсена (1909-1949 рр.) «A Modern English Grammar on Historical Principles» побудована винятково на прикладах, відібраних з величезної кількості текстів писемного варіанта англійської мови. Тенденція до цитування літературних творів у якості прикладів до граматичних правил продовжилася в граматиках кінця ХІХ – середини ХХ століття такими авторами як Дж. Керм, Н. Поутсма, Ч. Фріз.

Дослідження великих масивів текстів також здійснювалися з метою укладання доступних словників. Починаючи зі словника Самуеля Джонсона (1755 р.), лексикографи використовували цитати з реальних текстів, щоб проілюструвати значення слів та особливості їх уживання. Особливо показовим у цьому аспекті є проект по укладанню Oxford English Dictionary (OED) (1880 р.), основою якого став тримільйонний корпус на картках [10: 4; 12: 8].

Найважливішим та найвпливовішим доелектронним корпусом вважається The Survey of English Usage, укладений Рендольфом Квірком у 1959 р. в University College London. Корпус являв собою велику базу даних на картонних картках. Цей проект став перехідним етапом у становленні корпусної лінгвістики, оскільки він зосереджувався на лінгвістичних особливостях щоденного спілкування (як письмового, так і усного) звичайних громадян і від початку збереження даних в електронному форматі не передбачалося. Перенесення даних в електронний формат відбулося лише через багато років по тому. Сьогодні базу даних корпусу можна переглянути на офіційному сайті проекту (детальніше див.: http://www.ucl.ac.uk/english-usage).

Переважна кількість досліджень у царині сучасної корпусної лінгвістики розпочиналася на матеріалі англійської мови. Як зазначає С.А. Шаров [8: 14], причиною цього був не скільки активний розвиток комп’ютерних технологій у США, стільки інтелектуальний клімат у Британській лінгвістиці в 60-80 роки ХХ століття. У США період формування засад корпусної лінгвістики (60-ті роки ХХ ст.) був ознаменований розквітом трансформаційної генеративної граматики (ТГГ). Корпусні студії були несхвально сприйняті в тогочасній науковій спільноті та зазнали суттєвої критики від засновника генеративізму Н. Хомського. Дослідник назвав корпусний спосіб накопичення мовних даних неадекватним і хибним для опису породжувальної здатності природної мови, оскільки інтуїція мовця є достатнім джерелом мовного матеріалу [11: 6; 4: 668; 10: 14]. Інші представники ТГГ також без зацікавлення поставилися до можливості вивчати дані про реальне функціонування мови, і, як наслідок, провідні лінгвісти-теоретики того часу практично не підтримували й не проявляли зацікавленості до нових корпусів. У 1960-80-х роках корпусну лінгвістику було витіснено на периферію лінгвістичної дослідної парадигми США.

На відміну від США, у британській лінгвістиці були сильними емпіричні тенденції, які передбачали використання реальних прикладів для перевірки лінгвістичних гіпотез (у першу чергу дослідження Джона Фьорса та його учнів Грегори, Синклера, Хелідея та інш.) [8: 15]. Це й призвело до створення багатьох корпусів та розробці корпусних досліджень на матеріалі англійської мови.

Ідея створення корпусу (уже в сучасному його розумінні) зародилася в 60-х роках ХХ століття під значним впливом здійснених масштабних емпіричних досліджень, про які ми вже зазначали. До кінця 1960-х існувало декілька невеликих корпусів, укладених на різних принципах.

Уперше великий корпус текстів на машинному носії було укладено у 1963 р. в Браунівському університеті (США). Його автори У. Френсис і Г. Кучера створили цей корпус для дослідження лінгвістичних особливостей американського варіанта англійської мови. Він містив 500 текстових уривків обсягом по 2 000 слововживань загальним обсягом біля 1 млн. слів. Тексти булі відібрані із п'ятнадцяти найбільш масових жанрів англомовної друкованої прози США, опублікованих в 1961 році. Корпус супроводжувався значною кількістю матеріалів його первинної статистичної обробки – частотний і алфавітно-частотний словник, різноманітні статистичні розподіли. Зважаючи на ясність і чіткість критеріїв відбору, Браунівський корпус швидко перетворився в популярний об’єкт дослідження й навіть у певний стандарт для створення інших аналогічних корпусів [детальніше див.: 7].

Услід за Браунівським корпусом з’явився британський аналог Браунівського корпусу – Ланкастерсько-Осло-Бергенський корпус (Lancaster-Oslo-Bergen). Його укладачі притримувались основних принципів укладання Браунівського корпусу, але на матеріалі британської масової друкованої продукції 1961 року видання. Анотована версія корпусу з’явилася у 1985 році.

Створення Браунівського та Ланкастерського корпусів дало можливість проводити різноаспектні лінгвістичні порівняння двох варіантів англійської мови (американського й британського), на текстах різних жанрів, доступних комп’ютерній обробці.

У 1970-ті за моделлю близькою до Браунівського корпусу був створений частотний словник російської мови, укладений на основі корпусу текстів обсягом також в 1 млн. слів, що включав приблизно в однаковому співвідношенні суспільно-політичні, художні, наукові та науково-популярні тексти й драматургію. Корпус містив здійснену вручну лематизацію та частиномовну розмітку.

70-ті роки 20 століття були періодом уповільнення темпів корпусних досліджень. Крім несприйняття ідей корпусної лінгвістики представниками генеративної граматики, панівного на той час лінгвістичного напряму, і як наслідок непопулярності корпусних студій серед більшості лінгвістів, не менш вагомою причиною такого стану були обмежені можливості комп’ютерних технологій. Комп’ютери все ще були величезними калькуляторами з малим об’ємом пам’яті, програмне забезпечення теж не відповідало нагальним потребам дослідників. Проте незважаючи на це в корпусній лінгвістиці були досягнуті певні результати. Насамперед, це створення корпусів, що перевищили поріг в 1 млн. слововживань.

У 80-ті роки ХХ століття у зв’язку з появою комп’ютерних технологій, здатних обробляти великі масиви текстів, було здійснено декілька спроб створити корпуси значно більших розмірів. У Великобританії такими проектами стали Британський Національний Корпус (British National Corpus) та Банк Англійської мови (Bank of English), а в колишньому Радянському Союзі – Машинний Фонд російської мови.

Головними цілями Машинного Фонду російської мови, створеного під керівництвом А.П. Єршова, були розробка представницького корпусу й відповідних програмних засобів для опрацювання природної мови та для комплексної інформатизації лінгвістичних досліджень, включаючи створення граматик та словників. На жаль, цей проект не завершився створенням власне представницького корпусу, хоча були зібрані колекції різних типів. Сьогодні з Машинного Фонду доступні деякі тексти ХІХ століття та газетний корпус за 1997 рік [8: 3].

Британський Національний Корпус (British National Corpus) задав новий стандарт для представницьких корпусів. Він характеризується обсягом 100 млн. слів, використанням повних текстів, а не вибірок, підкорпусом усного мовлення (10 млн. слів), наявністю частиномовної розмітки та доступом через Інтернет. Для корпусу використовувалася детальна класифікація документів за декількома параметрами: вид мовлення (писемне, усне приватне й усне публічне), для писемного за тематикою, типом видання (книги, періодика, машинописні тексти й т.п.), параметром утворення очікуваної аудиторії (високий, середній чи довільний) та складністю мови (складний, середній, простий). За стандартом, заданим Британським Національним Корпусом, були укладені національні корпуси іспанської, італійської, хорватської, чеської мов.

У 1989 році Банк Англійської мови мав обсяг у 20 млн. слів, а на сьогоднішній день його розмір сягнув 650 млн. слів. Цей корпус зорієнтований відслідковувати зміни в слововживанні (так званий моніторинговий корпус monitor corpus) шляхом регулярного поповнення новими текстами та порівняння частотних параметрів, наприклад, таких як зміна частоти слів та граматичних конструкцій, поява нових слів і т.ін. Цей корпус став основою для словника Collins COBUILD English Dictionary та низки англійських граматик. Ще один вид корпусів представлений Інтернаціональним Корпусом Англійської мови (International Corpus of English), який дозволяє порівняти слововживання в різних діалектах англійської мови, не лише в британському й американському, але і в кенійському, новозеландському, сінгапурському.

Масово комп’ютеризовані корпуси стали доступними лише із середини 90-х років 20 століття, коли лінгвістика раптом перейшла від стану „голоду адекватних даних” [13: 1] до стану заповненого даними. Саме в цей період корпусна лінгвістика остаточно оформилася як окремий розділ науки про мову. На сьогодні (пост 2000 роки) спостерігається стрімке піднесення корпусних студій по всьому світу, що підтверджується як величезною кількістю досліджень у галузі, так різноманіттям корпусів, що постійно з’являються.

Здійснюючи огляд сучасного стану корпусної лінгвістики у своїй монографії «Основи національного корпусу української мови», дослідниця О. Демська-Кульчицька [2: 17] зазначає, що цей напрям досить розгалужений і передбачає студії, по-перше, загальної теорії корпусної лінгвістики, над якою працюють Д. Байбер, Дж. Синклер, В. Тойберт; по-друге, кореляції корпусної лінгвістики та інших лінгвістичних дисциплін; по-третє типології корпусів та методики інтерпретації корпусних даних; по-четверте, розроблення загальних засад створення природним мов тощо (праці Б. Алтенберга, М. Баньки, У. Френсиса, Г. Кеннеді, Г. Ліча, А. Баранова, М. Михайлова, Р. Рикова, Л. Ричкової, С. Шарова та інш.).

Корпусні дослідження в Україні ще, на жаль, не набули широкої популярності й перебувають на початковому етапі свого становлення. На разі ведеться робота по створенню загальномовних корпусів української мови, що проводиться двома незалежними установами: Національний корпус української мови – в Інституті української мови НАНУ [2] та Український національний лінгвістичний корпус – в Українському мовно-інформаційному фонді НАНУ [3].

На лінгвістичному порталі Mova.info (див.: http://www.mova.info/) Інституту філології Київського університету імені Тараса Шевченка представлено Дослідницький корпус сучасної української мови обсягом у 3 млн. словоформ, який побудований як інформаційно-довідкова система. Це тексти в електронній формі, призначені для з’ясування різних питань, пов’язаних з українською мовою.

Над проблемами створення та використання корпусів інтенсивно працюють наукові колективи лабораторій комп’ютерної лінгвістики Київського національного лінгвістичного університету та Національного університету «Острозька академія».

Таким чином, корпусні дослідження є перспективним напрямком сучасного мовознавства, який надає в розпорядження лінгвіста об’єктивні кількісні дані, забезпечуючи досягнення більш ґрунтовних та переконливих висновків. Проте необхідно пам’ятати, що незважаючи революційні можливості корпусної лінгвістики, вона є лише частиною численного методологічного інструментарію сучасної лінгвістики. Навіть великі за обсягом корпуси не в змозі відобразити все можливе в мові, а натомість і незначні за обсягом корпуси можуть надати інформацію, яку нереально було б отримати не звертаючись до корпусного дослідження.

Література:

1. Баранов А. Н. Введение в прикладную лингвистику / А.Н. Баранов – Москва, 2001. – 358 с.

2. Демська-Кульчицька О. Основи національного корпусу української мови: монографія / Орися Демська-Кульчицька. – Київ, 2005. – 218 с.

3. Корпусна лінгвістика / [Широков В.А., Бугаков О.В., Грязнухіна Т.О. та ін.] – К.: Довіра, 2005. – 471 с.

4. Селіванова О.О. Корпусна лінгвістика // О. Селіванова // Сучасна лінгвістика: напрями та проблеми: підручник. –– Полтава: Довкілля-К, 2008. – С. 667-669.

5. Плунгян В.А. Корпус как инструмент и как идеология: о некотрых уроках современной корпусной лингвистики / В.А. Плунгян // Русский язик в научном освещении. – 2008. – №2 (16) – С.7-20.

6. Плунгян В.А. Почему современная лингвистика должна быть лингвистикой корпусов?: (публичная лекция, прочитанная 01.10.2009) [Электронный ресурс] / В.А. Плунгян – Режим доступу: http://www.polit.ru/lectures/2009/10/23/corpus.html.

7. Френсис У. Н. Проблемы формирования и машинного представления большого корпуса текстов / У. Н. Френсис // Новое в лингвистике. –1983. – Вып. XIV. – С. 334-352.

8. Шаров С.А. Представительный корпус русcкого языка в контексте мирового опыта / С.А.Шаров // НТИ. Сер.2. – 2003. – №6. – С. 9-17.

9. Conrad S. Will Corpus Linguistics Revolutionize Grammar Teaching in the 21^st Century? / S. Conrad // Tesol Quartely – 2000. – № 34. – P. 548 – 60.

10. McCarthy M., O’Keeffe A. What are corpora and how have they evolved? / M. McCarthy, A. O’Keeffe // The Routledge Handbook of Corpus Linguistics. – Routledge, 2010. – Р. 3-14.

11. McEnery T., Wilson A. Corpus Linguistics / T. McEnery, A. Wilson – Edinburgh: Edinburgh University Press, 2001. – 235 p.

12. Meyer Ch. F. Pre-electronic corpora / Ch. F. Meyer // Corpus Linguistics. An International Handbook. Edited by A. Lüdeling, M. Kytö. – 2008. Volume 1.– P. 1–15.

13. Sinclair J. Corpus, Concordance, Collocation / J.Sinclair – Oxford: Oxford University Press, 1991. – 170 р.

14. Svartvik J. Corpus linguistics 25+ years on / J.Svartvik // Corpus Linguistics 25 Years on. – Amsterdam - New York, NY 2007. – P. 11-27.