Филологические науки/ Теоретические и методологические проблемы исследования языка

К.ф.н., доц. Лесников Сергей Владимирович

Сыктывкарский государственный университет, Сыктывкар, Россия

serg@lsw.ru; lsw@mail.ru; lsw@syktsu.ru

www.lsw.ru и http://ЛСВ.РФ.

Расчёт индекса итерации русских словарей лингвистических терминов

Данная статья публикуется при финансовой поддержке Российского фонда фундаментальных исследований  по исследовательскому проекту  (грант) N 11-07-00733 (2011-2013) «Гипертекстовый [Лесников С.В. Омск, 2011. С.146-151] информационно-поисковый [Лесников С.В. Комсомольск–на–Амуре, 2011. С.227-234]  тезаурус [Лесников С.В. Иркутск, 2011. С.153-163]  /ИПТ/ «Метаязык [Лесников С.В. Курск, 2011. С.11-16]  науки [Лесников С.В. Москва-Магнитогорск-Новосибирск, 2011. С.30-34]» (структура; математическое, лингвистическое [Лесников С.В. Челябинск, 2011. С.200-202] и программное обеспечения [Лесников С.В. Биробиджан, 2011. С.80-85]; разделы лингвистика [Лесников С.В. Ярославль, 2011. С.214-222], математика [Кузнецова И.В., Лесников С.В. М., 2011. С.70-76], экономика [Лесников С.В., Найденов Н.Д., Новокшонова Е.Н. Красноярск, 2011. С.138-150]) (научный руководитель С.В. Лесников)» [ЛСВ.РФ, ГИЗАУРУС.РФ, МФРЯ.РФ, agora.guru.ru/conf_iitnio-2011, lsw.ru, umk.lsw.ru, www.mmik.ru, moodle.syktsu.ru, subscribe.ru/catalog/linguistics.kto, subscribe.ru/catalog/linguistics.rusling, www.famous-scientists.ru/2965, subscribe.ru/science.humanity.hypervault].

Ключевые слова: гизаурус, лингвистика, метаязык, поиск, тезаурус, язык.

Для формализованного (автоматического [Андрющенко В.М.], автоматизированного, алгебраического [Гладкий А.В.], аналитического [Сова Л.З.], валентностного [Кацнельсон С.Д.), вычислительного [Андрющенко В.М. ЛЭС; Василевский А.Л., Марчук Ю.Н.], дистрибутивного [Шайкевич А.Я.], инженерного [Пиотровский Р.Г.; ЛЭС], квантитативного [Арапов М.В.; Гринберг Дж.; Сильницкий Г.Г.], кибернетического [Налимов В.В.], комплексного (программа ВААЛ), компьютерного [Анисимов А.В.; Зубов А.В.; Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А.; Шемакин Ю.И.; Марчук Ю.Н.; Нелюбин Л.Л.], количественного, контентного, математического [Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.; Гладкий А.В.; Беляевская М.И.; Пальм Р.], машинного [Андрющенко В.М., Ершов А.П., Караулов Ю.Н.), механистического [Засорина Л.Н.], статистического [Алексеев П.М.], численного, факторного, цифрового…) анализа текстовой информации надо определиться с базовыми понятиями: что именно и по каким формулам будем считать. Основные понятия лингвистической статистики и методические указания по применению математических методов можно найти у К.Б.Бектаева и Р.Г.Пиотровского [Бектаев 1974].

Количественный анализ текста предполагает расчёт ряда некоторых количественных, квантитативных, математических, статистических, численных характеристик корпуса лексикографических источников, напр.,:

N = объём текста = число лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа, лексема) в тексте.

Nletter = число букв в тексте.

Nsyllable = число слогов в тексте.

Nclause = число предложений в тексте.

L = число ЛЕ в тексте, которые встретились в тексте хотя бы один раз.

Lf1 = ЛЕ, которые встретились в тексте только один раз.

Lfk = число ЛЕ, которые встретились в тексте с частотой больше одного раза.

Lr1 = максимальная частотность ЛЕ.

Fi = абсолютная частота ЛЕ.

F*i = накопленная абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих абсолютных частот ЛЕ.

fi  = Fi / N - относительная частота ЛЕ.

f*i = F*i  / N - накопленная относительная частота ЛЕ.

Lword = средняя длина слова в буквах (среднее число букв в слове, подсчитанное для каждой выборки).

Lclause = средняя длина предложений в словах (среднее число слов в предложении, подсчитанное для каждой выборки);  = длина i предложения.

Lsyllable = средняя длина слов в слогах (среднее число слогов в слове, подсчитанное для каждой выборки).

Lsyllable3 = среднее число "длинных" слов (более трех слогов). Lsyllable3 i = число "длинных" слов в i предложении.

Lempty = количество служебных слов в предложении (среднее число союзов, предлогов и частиц в предложении для каждой выборки).

Hi = - fi  log fi - удельная энтропия ЛЕ.

H*k =  - накопленная энтропия текста, равная сумме Hi.

IC = (fr12+ L2)^1/2  - индекс дистрибуции (чем IC больше, тем богаче словарь текста).

Ii = индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.

Ie = индекс исключительности (специфичности) лексики Ie=20*Lf1/N.

Iq = Lfk/N - индекс плотности текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем Iq ниже ).

IP = индекс предсказуемости (предполагается, что чем IP меньше, тем привлекательнее текст) IP = 100 - (Lf1*100)/N .

n =  число абзацев в тексте.

m = число абзацев текста, в которых встретилась ЛЕ.

K i = Fi * m / (N * n) коэффициент важности ЛЕ.

Iext = объем экстенсивности словаря текста. Пропорционален широте лексики, разнообразию выражения.

If = индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ. Если If больше, то главное не форма, а содержание (для беглого нестилизованного чтения, спонтанная речь). If меньше у художественных текстов, беллетристики.


 

 

Таблица. Словари лингвистических терминов  /СЛТ/.

Словарь

Слов (ЛЕ) N

ЛЕ хотя бы один раз L

ЛЕ только один раз Lf1

ЛЕ чаще чем раз Lfk

Индекс итерации Ii

1946 Жирков Л.И. Лингвистический словарь

42333

9509

5439

4070

4.45188768535072

1964 Вахек Й. Лингвистический словарь Пражской школы

58706

9412

5134

4278

6.237356566085848

1966 Ахманова О.С. Словарь лингвистических терминов

181641

24742

12587

12155

7.341403281868887

1976 Нечаев Г.А. Краткий лингвистический словарь

52144

10571

6053

4518

4.932740516507426

1985 Розенталь Д.Э., Теленкова М.А. Словарь-справочник лингвистических терминов

119266

23488

13816

9672

5.077741825613079

1991 Касаткин Л.Л., Клобуков Е.В., Лекант П.А.  Краткий справочник по современному РЯ

105331

21542

12747

8795

4.8895645715346765

1995 Васильева Н.В., Виноградов В.А., Шахнарович А.М. Краткий СЛТ

48881

12549

7610

4939

3.8952107737668342

1995 Эмирова А.М. Словарь-справочник лингвистических терминов

20137

6024

3726

2298

3.3427954847277555

1997 Потапов В.В. Краткий лингвистический справочник. Языки и письменность

55649

11806

6986

4820

4.713620193122141

2002 Стариченок В.Д. Русский язык Школьный словарь-справочник

84995

19847

11841

8006

4.2825112107623315

2003 Варпахович Л.В. Краткий терминологический словарь. Лингвистика в таблицах и схемах

13598

4619

2845

1774

2.9439272569820307

2003 Апресян Ю.Д. Лингвистическая терминология словаря (из Нововго объяснительного словаря синонимов РЯ)

25267

6831

4039

2792

3.6988727858293076

2004 Абрегов А Н и др Словарь русской лингвистической терминологии

96158

19451

11057

8394

4.943601871369081

2005 Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный СЛТ

49613

13019

7993

5026

3.810814962746755

2007 Лемов А.Б. Школьный лингвистический словарь

63099

13765

8031

5734

4.584017435524882

2008 Стариченок В.Д. Большой лингвистический словарь

210067

37576

20526

17050

5.590456674473068

2008 Тихонов А.Н. ред. Энц. сл.-спр. лингвистических терминов и понятий РЯ. Т.1

335461

45534

24861

20673

7.36726402248869

2008 Тихонов А.Н. ред. Энц. сл.-спр. лингвистических терминов и понятий РЯ. Т.2

314512

43614

24266

19348

7.211262438666483

2010 Лесников С.В. Словарь базовых дефиниций определений терминов языкознания

227906

39696

22103

17593

5.7412837565497785

2010 Матвеева Т.В. Полный СЛТ

154396

27705

15473

12232

5.572856885038802

2010 Жеребило Т.В. СЛТ

265097

36831

19253

17578

7.197659580244903

 

В представленной таблице наглядно видно, что разброс полученных количественных характеристик относительно не велик, что, очевидно, требует дополнительных исследований и не только на данной выборке.

Литература

1.       Андрющенко В.М. Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический энциклопедический словарь. С.397

2.       Арапов М.В. Квантитативная лингвистика. М.: Наука, 1988.

3.       Бектаев К.Б. Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.

4.       Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974.

5.       Головин Б.Н. Язык и статистика. М.: Просвещение, 1970.

6.       Зиндер Л.Р. О лингвистической вероятности // ВЯ. 1958. № 2. С.121-125.

7.       Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. М.: Университетская книга; Логос, 2007.

8.       Зубова И.И. Информационные технологии в лингвистике. Минск: МГЛУ, 2001.

9.       Караулов Ю.Н., Андрющенко В.М. Автоматизация лингвистических работ и создание МФ РЯ // Изв.АН СССР. 1988. Т.47. N1. С.3-11.

10.    Карпов В.А. Язык как система. Минск: Выш. шк., 1992.

11.    Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как средство формирования профессиональной компетентности будущего учителя математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.

12.    Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы народов. Серия: информатизация образования. Москва: РУДН, 2011. №3. С.70-76.

13.    Лапшин В.А. Лекции по математической лингвистики. М.: Научный мир, 2010.

14.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Математический формализм статистического анализа текстов // Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.

15.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009. С.23-30.

16.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры квантитативного анализа текстов // Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.

17.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов // Славянская филология: исследовательский и методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.

18.    Лесников С.В. Базовые блоки автоматизированной лексикографической системы // Вестник Челябинского государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.

19.    Лесников С.В. Галерея словарей русского языка и текстов художественной литературы на основе новых информационных технологий в виде открытого гипертекстового свода с адекватным представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь: Изд-во Таврического экологического института, 2001. С.30-31.

20.    Лесников С.В. Гипертекст русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция. 26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II. Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык художественной литературы. СПб.: Филологический факультет СПбГУ, 2001. С.360-371.

21.    Лесников С.В. Гипертекст русского языка // Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.

22.    Лесников С.В. Гипертекстовое производство свода лексики русского языка на основе новых информационных технологий как актуальный процесс интерактивного управления формированием новых лексикографических знаний в виде открытой системы с адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII международный симпозиум по психолингвистике и теории коммуникации. Москва, 1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.

23.    Лесников С.В. Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.

24.    Лесников С.В. Гипертекстовый свод определений лингвистики (гиперсол) // Актуальные проблемы образования и науки: цели, задачи и перспективы развития. Коряжма: Суров С.В., 2010. С.213-216.

25.    Лесников С.В. Гипертекстовый свод русского языка / Проблемы прикладной лингвистики. Ч.2. Пенза: Приволжский Дом знаний, 2000. С.6-7.

26.    Лесников С.В. Гипертекстовый словарь базовых дефиниций, интерпретаций, объяснений, определений, понятий, пояснений, разъяснений, толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка лингвистики (языковедения, языкознания) // Медиадискурс и проблемы медиаобразования. Омск: ОГУ им. Ф.М.Достоевского, 2011. С.146-151. 

27.    Лесников С.В. Гипертекстовый словарь базовых экскурсов терминов метаязыка лингвистики (языковедения, языкознания) // Русский язык в контексте национальной культуры. Саранск: Изд-во Мордов. ун-та, 2010. С.123-127.

28.    Лесников С.В. Гипертекстовый тезаурус // Проблемы гуманитаризации образования в малых городах: теория, практика и перспективы. Коряжма: Суров С.В., 2010. С.336-345.

29.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования.  Самара: ПГСГА, 2011. С.103-117.

30.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33) 2011.  Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.

31.    Лесников С.В. Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл: ОрелГТУ, 2008. С.213-217.

32.    Лесников С.В. Дефиниции и формулы для компьютерного анализа текстов // Прагмалингвистика и практика речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.

33.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Русское народное слово в языке и речи. Арзамас-Саров: СГТ, 2009. С.219-226.

34.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Языки профессиональной коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.

35.    Лесников С.В. Интерактивное моделирование гипертекстового ИПТ метаязыка науки на основе реляционной базы лексикографических материалов русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158. 

36.    Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.

37.    Лесников С.В. Информационно-поисковая система лексико-семантических вариантов вокабул // Актуальные проблемы современного научного знания.  Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.

38.    Лесников С.В. Квантитативный анализ лексикографических материалов // Русский язык: исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.

39.    Лесников С.В. Компьютерная версия "Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность. Труды и материалы // МГУ, 2007. С.621.

40.    Лесников С.В. Конструирование русского лексического универсума // Русский язык в контексте межкультурной коммуникации.  Самара: ПГСГА, 2011. С.392-404.

41.    Лесников С.В. Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии. М.: ИНТУИТ.РУ, 2011. С.706-713. 

42.    Лесников С.В. Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.

43.    Лесников С.В. Направления и разделы лингвистики в систематическом указателе гипертекстового информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве. Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222. 

44.    Лесников С.В. О гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред. А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.

45.    Лесников С.В. Опыт использования русского языка для реализации интерактивного режима обработки информации // Linguistics by the End of the XXth Century: Achievements and Perspectives. Vol. II. Moscow: Philologia Publishers, 1995. P.587-588.

46.    Лесников С.В. Поиск лексики на основе гипертекстового тезауруса русского языка // Русский язык в современном мире.  Биробиджан: Изд-во ДВГСГА, 2009. С.60-64.

47.    Лесников С.В. Поиск лексики на основе гипертекстового тезауруса русского языка // Изменяюшийся славянский мир: новое в лингвистике. Вып.2. Севастополь: Рибэст, 2009. С.441-445.

48.    Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры: прошлое, настоящее, будущее. Иркутск: ИГЛУ, 2011. С.153-163.

49.    Лесников С.В. Процедура разработки информационно-поискового тезауруса метаязыка науки // Вопросы современной лингвистики и методики обучения иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234. 

50.    Лесников С.В. Расчет энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации, исключительности, предсказуемости, плотности // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.

51.    Лесников С.В. Русский гипертекстовый тезаурус (гизаурус) / Проектирование инновационных процессов в социокультурной и образовательной сферах. Ч.2. Сочи: РИО СГУТиКД, 2002. С.54-55.

52.    Лесников С.В. Словарь русских словарей. 10 компакт-дисков. М.: Минобр РФ, Гос. Координационный центр информационных технологий. Отраслевой фонд алгоритмов и программ, 24 апреля 2003. №2538. Информационно-библиотечный фонд РФ № гос. регистрации: 502000300341 от 29 апреля 2003 года.

53.    Лесников С.В. Словарь русских словарей: более 3500 источников. М.: Азбуковник, 2002. 334 с.

54.    Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия: филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.

55.    Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85.

56.    Лесников С.В. Типология русских словарей лингвистической терминологии // Мир науки, культуры, образования. №6(31). Ч2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.  

57.    Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия "Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.

58.    Лесников С.В., Калашников Э.В. К задаче классификации диалектов языка на основе их семантико-статистических связей // Компьютеризация лингвистических исследований // Альманах “ГОВОР”. Май 1995. С.41-56.

59.    Лесников С.В., Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ на основе синонимических рядов // Третья Всесоюзная конференция по созданию Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.

60.    Лесохин М.М., Лукьяненков К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.: Наука и техника, 1982.

61.    Марчук Ю.Н. Компьютерная лингвистика. М.: Восток-Запад, 2007.

62.    Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка. ВЯ. 1962.N6. С.115-130.

63.    Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.

64.    Тузов В.А. Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.

65.    Филиппович Ю.Н. Ч.1. Семантические исследования естественно-языкового описания. http://www.philippovich.ru/Library/Books/Semantics IT/gl1 2/glava1 2.htm

66.    Шемакин Ю.И.  Начала компьютерной лингвистики.  М.: МГОУ, 1992.

67.    Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948.