Филологические науки/ Теоретические и методологические проблемы исследования языка

К.ф.н., доц. Лесников Сергей Владимирович

Сыктывкарский государственный университет, Сыктывкар, Россия

serg@lsw.ru; lsw@mail.ru; lsw@syktsu.ru

www.lsw.ru и http://ЛСВ.РФ.

Расчёт энтропии толковых словарей русского языка

Данная статья публикуется при финансовой поддержке Российского фонда фундаментальных исследований  по исследовательскому проекту  (грант) N 11-07-00733 (2011-2013) «Гипертекстовый [Лесников С.В. Омск, 2011. С.146-151] информационно-поисковый [Лесников С.В. Комсомольск–на–Амуре, 2011. С.227-234]  тезаурус [Лесников С.В. Иркутск, 2011. С.153-163]  /ИПТ/ «Метаязык [Лесников С.В. Курск, 2011. С.11-16]  науки [Лесников С.В. Москва-Магнитогорск-Новосибирск, 2011. С.30-34]» (структура; математическое, лингвистическое [Лесников С.В. Челябинск, 2011. С.200-202] и программное обеспечения [Лесников С.В. Биробиджан, 2011. С.80-85]; разделы лингвистика [Лесников С.В. Ярославль, 2011. С.214-222], математика [Кузнецова И.В., Лесников С.В. М., 2011. С.70-76], экономика [Лесников С.В., Найденов Н.Д., Новокшонова Е.Н. Красноярск, 2011. С.138-150]) (научный руководитель С.В. Лесников)» [ЛСВ.РФ, ГИЗАУРУС.РФ, МФРЯ.РФ, agora.guru.ru/conf_iitnio-2011, lsw.ru, umk.lsw.ru, www.mmik.ru, moodle.syktsu.ru, subscribe.ru/catalog/linguistics.kto, subscribe.ru/catalog/linguistics.rusling, www.famous-scientists.ru/2965, subscribe.ru/science.humanity.hypervault].

Ключевые слова: гизаурус, лингвистика, метаязык, поиск, тезаурус, язык.

Анализ лексикографического источника осуществляем по следующему алгоритму: 1) по заранее определенному списку разделительных символов (пунктуационных знаков, специальных знаков: конец строки, абзаца и др.) исследуемый  текст разбивается на порции (том, книга, часть, раздел, глава, параграф, абзац, предложение, словоформа); 2) выделяются приставки, суффиксы, окончания (аффиксы, форманты, терминоэлементы) для каждого слова; 3) определяется часть речи и уточняются атрибуты и параметры для каждого слова с помощью соответствующих алгоритмов; 4) определяются части предложения и другие синтаксические показатели; 5) определяются субъекты и объекты в тексте и наличие связей между ними. Объекты и субъекты образуют в своих отношениях модель проблемы. Привнесение вопроса к модели замыкает ее.

Теоретически после обработки текста по такому алгоритму можно решать некоторые задачи, задавая вопросы к тексту: - ответ на которые содержится в тексте; - ответ на которые можно получить логическим выводом; - для ответа на которые требуется наличие дополнительной базы знаний; - на которые можно найти ответ, зная модель поведения, аргументы поведения личности.

Предложенный алгоритм прост, но для исполнения человеком (с учётом уровня грамотности, образованности, начитанности) для реализации на компьютере недостаточно формализован.

Собственно говоря, количественный анализ текста предполагает расчёт ряда некоторых количественных, квантитативных, математических, статистических, численных характеристик корпуса лексикографических источников, напр.,:

N = объем текста - число лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа, лексема) в источнике.

L = число ЛЕ в тексте, которые встретились в тексте хотя бы один раз.

Lf1 = ЛЕ, которые встретились в тексте только один раз.

Lfk = число ЛЕ, которые встретились в тексте с частотой больше одного раза.

r = ранг ЛЕ. Ранг ЛЕ может измеряться следущим образом: а) по частоте встречаемости в тексте (или фрагменте) – самая частотная ЛЕ имеет ранг равный 1 и далее ранг r увеличивается по мере уменьшения частоты встречаемости ЛЕ в тексте (ЛЕ имеющие одинаковую частоту имеют и равные ранги); б) по длине слова (напр., число букв в ЛЕ); в) число значений ЛЕ (по толковым словарям).

Lr1 = максимальная частотность ЛЕ.

Fi = абсолютная частота ЛЕ.

F*i = накопленная абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих абсолютных частот ЛЕ.

fi  = Fi / N - относительная частота ЛЕ.

f*i = F*i  / N - накопленная относительная частота ЛЕ.

Hi = - fi  log fi - удельная энтропия ЛЕ.

H*k =  - накопленная энтропия текста, равная сумме Hi.

 

Для сопоставительного лингво-статистического анализа приведем результаты компьютерной обработки толковых словарей русского языка.

 

год издания, автор (редактор), название словаря

букв

гласных

согласных

слогов

ЛЕ

Накопленная энтропия Hk

1

1863 Даль Толковый словарь живого великоРЯ

12642468

5069892

7572576

5069892

2252410

14.085757440183146

2

1934 Ушаков Толковый СРЯ

12146238

4823418

7322820

4823418

2006101

13.706665130573125

3

1949 Ожегов Словарь русского языка 1 издание

2953284

1176120

1777164

1176120

599998

12.470128825484757

4

1979 Современный толковый словарь

21164827

8849192

12315635

8849192

3186583

13.25340593766686

5

1992 Ожегов Шведова СРЯ

5649065

2315413

3333652

2315413

1091271

12.242250716674347

6

1997 Лопатины Русский толковый словарь

2782087

1115048

1667039

1115048

560788

12.366645218902615

7

1998 Кузнецов Большой толковый СРЯ

13104244

5348699

7755545

5348699

2465956

12.917552942339837

8

2000 Ефремова Новый СРЯ Толково-словообразовательный

10427921

4065176

6362745

4065176

1758468

11.82244804455282

9

2003 Дмитриев Толковый СРЯ

4633662

1970246

2663416

1970246

887115

12.298253835157048

10

2003 Шушков А А Толково-понятийный СРЯ

593936

233931

360005

233931

87621

12.185204242342333

11

2004 Химик Большой словарь русской разговорной речи

3250035

1314612

1935423

1314612

637359

12.381173435394166

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В представленной таблице наглядно видно, что разброс уровня энтропии не велик. О чём это может свидетельствовать?

Трактовка энтропии требует дополнительных исследований и не только на данной выборке. Энтропия (от греч. entropía — поворот, превращение), понятие, впервые введенное в термодинамике (введено Р. Клаузиусом в 1865 г.)  для определения меры необратимого рассеяния энергии. Энтропия широко применяется и в других областях науки. В информатике под энтропией понимается мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита. В лингвистике, например, под первичным алфавитом можно понимать традиционный алфавит, расширенный знаками препинания и специальными разделителями (пробел, разметка, непечатные невидимые на экране символы) или, полный набор ЛЕ (словоформ, текстоформ, лемм и т.п.). При отсутствии информационных потерь энтропия равна количеству информации на символ передаваемого сообщения. К.Шеннон предположил, что прирост информации равен утраченной неопределённости, и задал требования к её измерению: 1) мера должна быть непрерывной, т.е. изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции; 2) в случае, когда все варианты (в нашем случае - ЛЕ) равновероятны, увеличение количества вариантов ЛЕ должно всегда увеличивать значение функции; 3) должна быть возможность сделать выбор ЛЕ в два шага, в которых значение функции конечного результата должно являться суммой функций промежуточных результатов. Таким образом, показатель энтропии количественно характеризует уровень информационной упорядоченности текста как системы, т.е. чем больше энтропия, тем менее упорядочен текст, при этом, энтропия - это функция состояния: любому состоянию системы можно придать вполне определенное значение энтропии (Шеннон К., Колмогоров А.Н.,  Пиотровский Р.Г., Бектаев К.Б., Арапов М.В.). Величина энтропии текста - это свойство этого текста - степень его упорядо­ченности, степень его отклонения от состояния полного хаоса, при котором все ЛЕ имели бы равную вероят­ность, а текст превратился бы в бессмысленный набор ЛЕ. Упорядоченность текста будет тем больше, чем больше различие вероятностей и чем больше вероятность последующего события будет зависеть от вероятностей предыдущих событий. 

Лингвистический смысл расчета энтропии состоит в том, что появляется возможность получить численную оценку лингвистическому понятию «контекстные связи». Если бы в естественном языке не существовало бы контекстных связей, то энтропия на каждом участке лексикографического источника равнялась бы энтропии алфавита [Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. 1962. С.115-130].

Литература

1.       Андрющенко В.М. Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический энциклопедический словарь. С.397

2.       Арапов М.В. Квантитативная лингвистика. М.: Наука, 1988.

3.       Бектаев К.Б. Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.

4.       Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974.

5.       Головин Б.Н. Язык и статистика. М.: Просвещение, 1970.

6.       Зиндер Л.Р. О лингвистической вероятности // ВЯ. 1958. № 2. С.121-125.

7.       Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. М.: Университетская книга; Логос, 2007.

8.       Зубова И.И. Информационные технологии в лингвистике. Минск: МГЛУ, 2001.

9.       Караулов Ю.Н., Андрющенко В.М. Автоматизация лингвистических работ и создание МФ РЯ // Изв.АН СССР. 1988. Т.47. N1. С.3-11.

10.    Карпов В.А. Язык как система. Минск: Выш. шк., 1992.

11.    Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как средство формирования профессиональной компетентности будущего учителя математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.

12.    Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы народов. Серия: информатизация образования. Москва: РУДН, 2011. №3. С.70-76.

13.    Лапшин В.А. Лекции по математической лингвистики. М.: Научный мир, 2010.

14.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Математический формализм статистического анализа текстов // Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.

15.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009. С.23-30.

16.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры квантитативного анализа текстов // Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.

17.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов // Славянская филология: исследовательский и методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.

18.    Лесников С.В. Базовые блоки автоматизированной лексикографической системы // Вестник Челябинского государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.

19.    Лесников С.В. Галерея словарей русского языка и текстов художественной литературы на основе новых информационных технологий в виде открытого гипертекстового свода с адекватным представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь: Изд-во Таврического экологического института, 2001. С.30-31.

20.    Лесников С.В. Гипертекст русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция. 26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II. Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык художественной литературы. СПб.: Филологический факультет СПбГУ, 2001. С.360-371.

21.    Лесников С.В. Гипертекст русского языка // Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.

22.    Лесников С.В. Гипертекстовое производство свода лексики русского языка на основе новых информационных технологий как актуальный процесс интерактивного управления формированием новых лексикографических знаний в виде открытой системы с адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII международный симпозиум по психолингвистике и теории коммуникации. Москва, 1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.

23.    Лесников С.В. Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.

24.    Лесников С.В. Гипертекстовый свод определений лингвистики (гиперсол) // Актуальные проблемы образования и науки: цели, задачи и перспективы развития. Коряжма: Суров С.В., 2010. С.213-216.

25.    Лесников С.В. Гипертекстовый свод русского языка / Проблемы прикладной лингвистики. Ч.2. Пенза: Приволжский Дом знаний, 2000. С.6-7.

26.    Лесников С.В. Гипертекстовый словарь базовых дефиниций, интерпретаций, объяснений, определений, понятий, пояснений, разъяснений, толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка лингвистики (языковедения, языкознания) // Медиадискурс и проблемы медиаобразования. Омск: ОГУ им. Ф.М.Достоевского, 2011. С.146-151. 

27.    Лесников С.В. Гипертекстовый словарь базовых экскурсов терминов метаязыка лингвистики (языковедения, языкознания) // Русский язык в контексте национальной культуры. Саранск: Изд-во Мордов. ун-та, 2010. С.123-127.

28.    Лесников С.В. Гипертекстовый тезаурус // Проблемы гуманитаризации образования в малых городах: теория, практика и перспективы. Коряжма: Суров С.В., 2010. С.336-345.

29.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования.  Самара: ПГСГА, 2011. С.103-117.

30.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33) 2011.  Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.

31.    Лесников С.В. Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл: ОрелГТУ, 2008. С.213-217.

32.    Лесников С.В. Дефиниции и формулы для компьютерного анализа текстов // Прагмалингвистика и практика речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.

33.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Русское народное слово в языке и речи. Арзамас-Саров: СГТ, 2009. С.219-226.

34.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Языки профессиональной коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.

35.    Лесников С.В. Интерактивное моделирование гипертекстового ИПТ метаязыка науки на основе реляционной базы лексикографических материалов русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158. 

36.    Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.

37.    Лесников С.В. Информационно-поисковая система лексико-семантических вариантов вокабул // Актуальные проблемы современного научного знания.  Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.

38.    Лесников С.В. Квантитативный анализ лексикографических материалов // Русский язык: исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.

39.    Лесников С.В. Компьютерная версия "Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность. Труды и материалы // МГУ, 2007. С.621.

40.    Лесников С.В. Конструирование русского лексического универсума // Русский язык в контексте межкультурной коммуникации.  Самара: ПГСГА, 2011. С.392-404.

41.    Лесников С.В. Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии. М.: ИНТУИТ.РУ, 2011. С.706-713. 

42.    Лесников С.В. Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.

43.    Лесников С.В. Направления и разделы лингвистики в систематическом указателе гипертекстового информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве. Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222. 

44.    Лесников С.В. О гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред. А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.

45.    Лесников С.В. Опыт использования русского языка для реализации интерактивного режима обработки информации // Linguistics by the End of the XXth Century: Achievements and Perspectives. Vol. II. Moscow: Philologia Publishers, 1995. P.587-588.

46.    Лесников С.В. Поиск лексики на основе гипертекстового тезауруса русского языка // Русский язык в современном мире.  Биробиджан: Изд-во ДВГСГА, 2009. С.60-64.

47.    Лесников С.В. Поиск лексики на основе гипертекстового тезауруса русского языка // Изменяюшийся славянский мир: новое в лингвистике. Вып.2. Севастополь: Рибэст, 2009. С.441-445.

48.    Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры: прошлое, настоящее, будущее. Иркутск: ИГЛУ, 2011. С.153-163.

49.    Лесников С.В. Процедура разработки информационно-поискового тезауруса метаязыка науки // Вопросы современной лингвистики и методики обучения иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234. 

50.    Лесников С.В. Расчет энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации, исключительности, предсказуемости, плотности // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.

51.    Лесников С.В. Русский гипертекстовый тезаурус (гизаурус) / Проектирование инновационных процессов в социокультурной и образовательной сферах. Ч.2. Сочи: РИО СГУТиКД, 2002. С.54-55.

52.    Лесников С.В. Словарь русских словарей. 10 компакт-дисков. М.: Минобр РФ, Гос. Координационный центр информационных технологий. Отраслевой фонд алгоритмов и программ, 24 апреля 2003. №2538. Информационно-библиотечный фонд РФ № гос. регистрации: 502000300341 от 29 апреля 2003 года.

53.    Лесников С.В. Словарь русских словарей: более 3500 источников. М.: Азбуковник, 2002. 334 с.

54.    Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия: филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.

55.    Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85.

56.    Лесников С.В. Типология русских словарей лингвистической терминологии // Мир науки, культуры, образования. №6(31). Ч2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.  

57.    Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия "Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.

58.    Лесников С.В., Калашников Э.В. К задаче классификации диалектов языка на основе их семантико-статистических связей // Компьютеризация лингвистических исследований // Альманах “ГОВОР”. Май 1995. С.41-56.

59.    Лесников С.В., Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ на основе синонимических рядов // Третья Всесоюзная конференция по созданию Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.

60.    Лесохин М.М., Лукьяненков К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.: Наука и техника, 1982.

61.    Марчук Ю.Н. Компьютерная лингвистика. М.: Восток-Запад, 2007.

62.    Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка. ВЯ. 1962.N6. С.115-130.

63.    Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.

64.    Тузов В.А. Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.

65.    Филиппович Ю.Н. Ч.1. Семантические исследования естественно-языкового описания. http://www.philippovich.ru/Library/Books/Semantics IT/gl1 2/glava1 2.htm

66.    Шемакин Ю.И.  Начала компьютерной лингвистики.  М.: МГОУ, 1992.

67.    Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948.