Филологические науки/ Русский язык и литература

К.ф.н., доц. Лесников Сергей Владимирович

Сыктывкарский государственный университет, Сыктывкар, Россия

serg@lsw.ru; lsw@mail.ru; lsw@syktsu.ru www.lsw.ru  http://ЛСВ.РФ.

Расчёт индекса плотности русских
словарей лингвистических терминов

Данная статья публикуется при финансовой поддержке Российского фонда фундаментальных исследований  по исследовательскому проекту  (грант) N 11-07-00733 (2011-2013) «Гипертекстовый [Лесников С.В. Омск, 2011. С.146-151] информационно-поисковый [Лесников С.В. Комсомольск–на–Амуре, 2011. С.227-234]  тезаурус [Лесников С.В. Иркутск, 2011. С.153-163]  /ИПТ/ «Метаязык [Лесников С.В. Курск, 2011. С.11-16]  науки [Лесников С.В. Москва-Магнитогорск-Новосибирск, 2011. С.30-34]» (структура; математическое, лингвистическое [Лесников С.В. Челябинск, 2011. С.200-202] и программное обеспечения [Лесников С.В. Биробиджан, 2011. С.80-85]; разделы лингвистика [Лесников С.В. Ярославль, 2011. С.214-222], математика [Кузнецова И.В., Лесников С.В. М., 2011. С.70-76], экономика [Лесников С.В., Найденов Н.Д., Новокшонова Е.Н. Красноярск, 2011. С.138-150]) (научный руководитель С.В. Лесников)» [ЛСВ.РФ, ГИЗАУРУС.РФ, МФРЯ.РФ, agora.guru.ru/conf_iitnio-2011, lsw.ru, umk.lsw.ru, www.mmik.ru, moodle.syktsu.ru, subscribe.ru/catalog/linguistics.kto, subscribe.ru/catalog/linguistics.rusling, www.famous-scientists.ru/2965, subscribe.ru/science.humanity.hypervault].

Ключевые слова: гизаурус, лингвистика, метаязык, поиск, тезаурус, текст, язык.

Для формализованного (автоматического, автоматизированного, алгебраического, аналитического, валентностного), вычислительного, дистрибутивного, инженерного, квантитативного, кибернетического, комплексного (программа ВААЛ), компьютерного, количественного, контентного, математического [Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.; Гладкий А.В.; Беляевская М.И.; Пальм Р.], машинного, механистического, статистического, численного, факторного, цифрового…) анализа текстовой информации надо определиться с базовыми понятиями: что именно и по каким формулам будем считать. Основные понятия лингвистической статистики и методические указания по применению математических методов можно найти у К.Б.Бектаева и Р.Г.Пиотровского [Бектаев 1974].

Количественный анализ текста предполагает расчёт ряда некоторых количественных, квантитативных, математических, статистических, численных характеристик корпуса лексикографических источников, напр.,:

N = объём текста = число лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа, лексема) в тексте.

Nletter = число букв в тексте.

Nsyllable = число слогов в тексте.

Nclause = число предложений в тексте.

L = число ЛЕ в тексте, которые встретились в тексте хотя бы один раз.

Lf1 = ЛЕ, которые встретились в тексте только один раз.

Lfk = число ЛЕ, которые встретились в тексте с частотой больше одного раза.

Lr1 = максимальная частотность ЛЕ.

Fi = абсолютная частота ЛЕ.

F*i = накопленная абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих абсолютных частот ЛЕ.

fi  = Fi / N - относительная частота ЛЕ.

f*i = F*i  / N - накопленная относительная частота ЛЕ.

Lword = средняя длина слова в буквах (среднее число букв в слове, подсчитанное для каждой выборки).

Lclause = средняя длина предложений в словах (среднее число слов в предложении, подсчитанное для каждой выборки);  = длина i предложения.

Lsyllable = средняя длина слов в слогах (среднее число слогов в слове, подсчитанное для каждой выборки).

Lsyllable3 = среднее число "длинных" слов (более трех слогов). Lsyllable3 i = число "длинных" слов в i предложении.

Lempty = количество служебных слов в предложении (среднее число союзов, предлогов и частиц в предложении для каждой выборки).

Hi = - fi  log fi - удельная энтропия ЛЕ.

H*k =  - накопленная энтропия текста, равная сумме Hi.

IC = (fr12+ L2)^1/2  - индекс дистрибуции (чем IC больше, тем богаче словарь текста).

Ii = индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.

Ie = индекс исключительности (специфичности) лексики Ie=20*Lf1/N.

Iq = Lfk/N - индекс плотности текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем Iq ниже ).

IP = индекс предсказуемости (предполагается, что чем IP меньше, тем привлекательнее текст) IP = 100 - (Lf1*100)/N .

n =  число абзацев в тексте.

m = число абзацев текста, в которых встретилась ЛЕ.

K i = Fi * m / (N * n) коэффициент важности ЛЕ.

Iext = объем экстенсивности словаря текста. Пропорционален широте лексики, разнообразию выражения.

If = индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ. Если If больше, то главное не форма, а содержание (для беглого нестилизованного чтения, спонтанная речь). If меньше у художественных текстов, беллетристики.


Таблица. Словари лингвистических терминов  /СЛТ/.

Словарь

Слов (ЛЕ) N

ЛЕ хотя бы один раз L

ЛЕ только один раз Lf1

ЛЕ чаще чем раз Lfk

Индекс плотности Iq

1946 Жирков Л.И. Лингвистический словарь

42333

9509

5439

4070

0.09614248931093945

1964 Вахек Й. Лингвистический словарь Пражской школы

58706

9412

5134

4278

0.07287159745170851

1966 Ахманова О.С. Словарь лингвистических терминов

181641

24742

12587

12155

0.06691771130967128

1976 Нечаев Г.А. Краткий лингвистический словарь

52144

10571

6053

4518

0.08664467628106781

1985 Розенталь Д.Э., Теленкова М.А. Сл.-справочник лингвистических терминов

119266

23488

13816

9672

0.08109603742894035

1991 Касаткин Л.Л., Клобуков Е.В., Лекант П.А.  Краткий справочник по совр. РЯ

105331

21542

12747

8795

0.08349868509745469

1995 Васильева Н.В., Виноградов В.А., Шахнарович А.М. Краткий СЛТ

48881

12549

7610

4939

0.10104130439229966

1995 Эмирова А.М. Словарь-справочник лингвистических терминов

20137

6024

3726

2298

0.11411828971544917

1997 Потапов В.В. Краткий лингвист. справочник. Языки и письменность

55649

11806

6986

4820

0.08661431472263653

2002 Стариченок В.Д. Русский язык Школьный словарь-справочник

84995

19847

11841

8006

0.09419377610447674

2003 Варпахович Л.В. Краткий термин. словарь. Лингвистика в таблицах и схемах

13598

4619

2845

1774

0.1304603618179144

2003 Апресян Ю.Д. Лингвистическая терминология словаря (из Нового объяснительного словаря синонимов РЯ)

25267

6831

4039

2792

0.11049986147940001

2004 Абрегов А Н и др Словарь русской лингвистической терминологии

96158

19451

11057

8394

0.08729382890659124

2005 Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный СЛТ

49613

13019

7993

5026

0.10130409368512285

2007 Лемов А.Б. Школьный лингвистический словарь

63099

13765

8031

5734

0.09087307247341479

2008 Стариченок В.Д. Большой лингвистический словарь

210067

37576

20526

17050

0.08116458082421323

2008 Тихонов А.Н. ред. Энц. сл.-спр. Лингвист. терминов и понятий РЯ. Т.1

335461

45534

24861

20673

0.061625643517428254

2008 Тихонов А.Н. ред. Энц. сл.-спр. Лингвист. терминов и понятий РЯ. Т.2

314512

43614

24266

19348

0.06151752556341252

2010 Лесников С.В. Словарь базовых дефиниций определений терминов языкознания

227906

39696

22103

17593

0.07719410634208841

2010 Матвеева Т.В. Полный СЛТ

154396

27705

15473

12232

0.07922485038472499

2010 Жеребило Т.В. СЛТ

265097

36831

19253

17578

0.06630780431313821

 

В представленной таблице наглядно видно, что разброс полученных количественных характеристик относительно не велик, что, очевидно, требует дополнительных исследований и не только на данной выборке.

Литература

1.       Андрющенко В.М. Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический энциклопедический словарь. С.397

2.       Бектаев К.Б. Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.

3.       Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974.

4.       Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как средство формирования профессиональной компетентности будущего учителя математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.

5.       Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы народов. Серия: информатизация образования. Москва: РУДН, 2011. №3. С.70-76.

6.       Лапшин В.А. Лекции по математической лингвистики. М.: Научный мир, 2010.

7.       Лесников Г.С., Лесникова Д.С., Лесников С.В. Математический формализм статистического анализа текстов // Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.

8.       Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009. С.23-30.

9.       Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры квантитативного анализа текстов // Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.

10.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов // Славянская филология: исследовательский и методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.

11.    Лесников С.В. Базовые блоки автоматизированной лексикографической системы // Вестник Челябинского государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.

12.    Лесников С.В. Галерея словарей русского языка и текстов художественной литературы на основе новых информационных технологий в виде открытого гипертекстового свода с адекватным представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь: Изд-во Таврического экологического института, 2001. С.30-31.

13.    Лесников С.В. Гипертекст русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция. 26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II. Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык художественной литературы. СПб.: Филологический факультет СПбГУ, 2001. С.360-371.

14.    Лесников С.В. Гипертекст русского языка // Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.

15.    Лесников С.В. Гипертекстовое производство свода лексики русского языка на основе новых информационных технологий как актуальный процесс интерактивного управления формированием новых лексикографических знаний в виде открытой системы с адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII международный симпозиум по психолингвистике и теории коммуникации. Москва, 1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.

16.    Лесников С.В. Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.

17.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования.  Самара: ПГСГА, 2011. С.103-117.

18.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33) 2011.  Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.

19.    Лесников С.В. Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл: ОрелГТУ, 2008. С.213-217.

20.    Лесников С.В. Дефиниции и формулы для компьютерного анализа текстов // Прагмалингвистика и практика речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.

21.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Русское народное слово в языке и речи. Арзамас-Саров: СГТ, 2009. С.219-226.

22.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Языки профессиональной коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.

23.    Лесников С.В. Интерактивное моделирование гипертекстового ИПТ метаязыка науки на основе реляционной базы лексикографических материалов русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158. 

24.    Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.

25.    Лесников С.В. Информационно-поисковая система лексико-семантических вариантов вокабул // Актуальные проблемы современного научного знания.  Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.

26.    Лесников С.В. Квантитативный анализ лексикографических материалов // Русский язык: исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.

27.    Лесников С.В. Компьютерная версия "Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность. Труды и материалы // МГУ, 2007. С.621.

28.    Лесников С.В. Конструирование русского лексического универсума // Русский язык в контексте межкультурной коммуникации.  Самара: ПГСГА, 2011. С.392-404.

29.    Лесников С.В. Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии. М.: ИНТУИТ.РУ, 2011. С.706-713. 

30.    Лесников С.В. Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.

31.    Лесников С.В. Направления и разделы лингвистики в систематическом указателе гипертекстового информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве. Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222. 

32.    Лесников С.В. О гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред. А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.

33.    Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры: прошлое, настоящее, будущее. Иркутск: ИГЛУ, 2011. С.153-163.

34.    Лесников С.В. Процедура разработки информационно-поискового тезауруса метаязыка науки // Вопросы современной лингвистики и методики обучения иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234. 

35.    Лесников С.В. Расчет энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации, исключительности, предсказуемости, плотности // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.

36.    Лесников С.В. Словарь русских словарей: более 3500 источников. М.: Азбуковник, 2002. 334 с.

37.    Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия: филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.

38.    Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85.

39.    Лесников С.В. Типология русских словарей лингвистической терминологии // Мир науки, культуры, образования. №6(31). Ч2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.  

40.    Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия "Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.

41.    Лесников С.В., Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ на основе синонимических рядов // Третья Всесоюзная конференция по созданию Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.

42.    Лесохин М.М., Лукьяненков К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.: Наука и техника, 1982.

43.    Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка. ВЯ. 1962.N6. С.115-130.

44.    Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.

45.    Тузов В.А. Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.

46.    Филиппович Ю.Н. Ч.1. Семантические исследования естественно-языкового описания. http://www.philippovich.ru/Library/Books/Semantics IT/gl1 2/glava1 2.htm

47.    Шемакин Ю.И.  Начала компьютерной лингвистики.  М.: МГОУ, 1992.

48.    Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948.