Филологические науки/
Русский язык и литература
К.ф.н.,
доц. Лесников Сергей Владимирович
Сыктывкарский
государственный университет, Сыктывкар, Россия
serg@lsw.ru; lsw@mail.ru; lsw@syktsu.ru www.lsw.ru http://ЛСВ.РФ.
Расчёт индекса
предсказуемости русских
словарей лингвистических терминов
Данная
статья публикуется при финансовой поддержке Российского фонда фундаментальных
исследований по исследовательскому
проекту (грант) N 11-07-00733
(2011-2013) «Гипертекстовый [Лесников С.В. Омск, 2011. С.146-151]
информационно-поисковый [Лесников С.В. Комсомольск–на–Амуре, 2011.
С.227-234] тезаурус [Лесников С.В.
Иркутск, 2011. С.153-163] /ИПТ/
«Метаязык [Лесников С.В. Курск, 2011. С.11-16]
науки [Лесников С.В. Москва-Магнитогорск-Новосибирск, 2011. С.30-34]»
(структура; математическое, лингвистическое [Лесников С.В. Челябинск, 2011.
С.200-202] и программное обеспечения [Лесников С.В. Биробиджан, 2011. С.80-85];
разделы лингвистика [Лесников С.В. Ярославль, 2011. С.214-222], математика
[Кузнецова И.В., Лесников С.В. М., 2011. С.70-76], экономика [Лесников С.В.,
Найденов Н.Д., Новокшонова Е.Н. Красноярск, 2011. С.138-150]) (научный
руководитель С.В. Лесников)» [ЛСВ.РФ,
ГИЗАУРУС.РФ, МФРЯ.РФ, agora.guru.ru/conf_iitnio-2011, lsw.ru, umk.lsw.ru,
www.mmik.ru, moodle.syktsu.ru, subscribe.ru/catalog/linguistics.kto,
subscribe.ru/catalog/linguistics.rusling, www.famous-scientists.ru/2965,
subscribe.ru/science.humanity.hypervault].
Ключевые
слова: гизаурус, лингвистика, метаязык,
поиск, тезаурус, текст, язык.
Для формализованного (автоматического,
автоматизированного, алгебраического, аналитического, валентностного),
вычислительного, дистрибутивного, инженерного, квантитативного,
кибернетического, комплексного (программа ВААЛ), компьютерного,
количественного, контентного, математического [Пиотровский Р.Г., Бектаев К.Б.,
Пиотровская А.А.; Гладкий А.В.; Беляевская М.И.; Пальм Р.], машинного,
механистического, статистического, численного, факторного, цифрового…) анализа
текстовой информации надо определиться с базовыми понятиями: что именно и по
каким формулам будем считать. Основные понятия лингвистической статистики и
методические указания по применению математических методов можно найти у
К.Б.Бектаева и Р.Г.Пиотровского [Бектаев 1974].
Количественный анализ текста предполагает расчёт
ряда некоторых количественных, квантитативных, математических, статистических,
численных характеристик корпуса лексикографических источников, напр.,:
N = объём текста = число
лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа,
лексема) в тексте.
Nletter = число
букв в тексте.
Nsyllable = число
слогов в тексте.
Nclause = число предложений в тексте.
L = число ЛЕ в тексте,
которые встретились в тексте хотя бы один раз.
Lf1 = ЛЕ, которые
встретились в тексте только один раз.
Lfk
= число
ЛЕ, которые встретились в тексте с частотой больше одного раза.
Lr1 = максимальная
частотность ЛЕ.
Fi
=
абсолютная частота ЛЕ.
F*i = накопленная
абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих
абсолютных частот ЛЕ.
fi
= Fi
/ N - относительная частота ЛЕ.
f*i = F*i / N - накопленная относительная частота ЛЕ.
Lword = средняя длина слова в буквах (среднее число
букв в слове, подсчитанное для каждой выборки).
Lclause =
средняя длина предложений в словах (среднее число слов в предложении,
подсчитанное для каждой выборки); = длина i предложения.
Lsyllable = средняя длина слов в
слогах (среднее число слогов в слове, подсчитанное для каждой выборки).
Lsyllable3
= среднее
число "длинных" слов (более трех слогов). Lsyllable3 i = число
"длинных" слов в i предложении.
Lempty = количество служебных слов в предложении
(среднее число союзов, предлогов и частиц в предложении для каждой выборки).
Hi
= - fi log fi
- удельная энтропия ЛЕ.
H*k = - накопленная энтропия текста, равная сумме Hi.
IC = (fr12+
L2)^1/2 - индекс
дистрибуции (чем IC больше, тем богаче словарь текста).
Ii =
индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.
Ie =
индекс исключительности (специфичности) лексики Ie=20*Lf1/N.
Iq = Lfk/N - индекс плотности
текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем
Iq ниже ).
IP
= индекс предсказуемости
(предполагается, что чем IP меньше, тем привлекательнее текст) IP
= 100 - (Lf1*100)/N .
n = число
абзацев в тексте.
m = число абзацев текста, в которых встретилась ЛЕ.
K i = Fi * m / (N * n) коэффициент важности ЛЕ.
Iext
= объем экстенсивности словаря текста. Пропорционален широте лексики,
разнообразию выражения.
If
= индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ.
Если If больше, то главное не форма, а содержание (для беглого
нестилизованного чтения, спонтанная речь). If меньше у
художественных текстов, беллетристики.
|
Таблица.
Словари лингвистических терминов
/СЛТ/ |
Слов (ЛЕ) N |
ЛЕ хотя бы один раз L |
ЛЕ только один раз Lf1 |
ЛЕ чаще чем раз Lfk |
Индекс предсказуемости P |
1 |
ЛС_1946_Жирков Л.И. Лингвистический словарь 157с |
42292 |
9430 |
5358 |
4072 |
87.33093729310508 |
2 |
СЛТ_1960_Марузо Ж. СЛТ 436с |
81975 |
15457 |
8755 |
6702 |
89.31991460811223 |
3 |
ЛСПШ_1964_Вахек Й Лингвистический словарь Пражской школы 351с |
58702 |
9403 |
5123 |
4280 |
91.27286974890123 |
4 |
САЛТ_1964_Хэмп Э. Словарь американской лингвистической
терминологии словарь 264с |
53459 |
10159 |
5708 |
4451 |
89.3226584859425 |
5 |
СЛТ_1966_Ахманова О.С. СЛТ 608с.txt |
181472 |
24501 |
12391 |
12110 |
93.17194939164169 |
6 |
ССЛТ_1975_Розенталь Д.Э., Теленкова М.А. Сл-спр лингвистических
терминов |
120657 |
23823 |
14080 |
9743 |
88.33055686781537 |
7 |
КЛС_1976_Нечаев Г.А. Краткий лингвистический словарь 184с |
52127 |
10553 |
6035 |
4518 |
88.4225065704913 |
9 |
ТТПЛ_1978_Никитина С.Е. Тезаурус по теоретической и прикладной
лингвистике 376с |
36373 |
5442 |
2370 |
3072 |
93.48417782421026 |
10 |
ССЛТ_1979_Едличка А. Словарь славянской лингвистической
терминологии 2тт 1977-79 592+498с 2266 терминов Русский словник |
16067 |
4146 |
2751 |
1395 |
82.87794859027821 |
11 |
КССР_1991_Касаткин и др Краткий справочник по СРЯ 383с |
105247 |
21457 |
12664 |
8793 |
87.96735298868376 |
12 |
КСЛТ_1995_Васильева Н.В. и др Краткий СЛТ 175с |
48880 |
12510 |
7565 |
4945 |
84.52332242225859 |
13 |
ССЛТ_1995_Эмирова А.М. Словарь-справочник лингвистических
терминов |
20101 |
6012 |
3716 |
2296 |
81.51335754440078 |
14 |
КЛС_1997_Потапов В.В. Краткий лингвистический справочник Языки и
письменность 197с |
55635 |
11789 |
6971 |
4818 |
87.47011773164375 |
15 |
РЯЭ_1997_Караулов Ю.Н. гл.ред. РЯ. Энциклопедия 703с |
321777 |
47847 |
27081 |
20766 |
91.58392302743826 |
16 |
РЯШСС_2002_Стариченок В.Д. Русский язык Школьный
словарь-справочник 352с |
84987 |
19841 |
11832 |
8009 |
86.07787073317095 |
17 |
ЛТС_2003_Апресян Ю.Д. Лингвистическая терминология словаря из
НовОбСлСинРЯ 31с |
25267 |
6831 |
4039 |
2792 |
84.01472276091344 |
18 |
СРЛТ_2004_Абрегов А Н и др Словарь русской лингвистической
терминологии 347с |
96046 |
19378 |
10995 |
8383 |
88.55236032734315 |
19 |
УСЛТ_2005_Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный
СЛТ |
49609 |
13009 |
7983 |
5026 |
83.90816182547522 |
20 |
ЛТСКТС_2007_Варпахович Л.В. Лингвистика в таблицах и схемах Кр.
термин. сл. |
6945 |
2514 |
1614 |
900 |
76.76025917926566 |
21 |
ШЛС_2007_Лемов А.В. Школьный лингвистический словарь 384с |
63081 |
13749 |
8021 |
5728 |
87.28460233667823 |
22 |
БЛС_2008_Стариченок В.Д. Большой ЛС 812c |
210072 |
37575 |
20525 |
17050 |
90.22954034807114 |
23 |
ЭССЛТП_2008_Тихонов А.Н. и др Энц Сл Спр лингвистических
терминов и понятий 2тт. |
649575 |
70008 |
36590 |
33418 |
94.36708617172766 |
24 |
ПСЛТ_2010_Матвеева Т.В. Полный СЛТ 564с. |
154389 |
27702 |
15472 |
12230 |
89.97856064875089 |
25 |
СЛТ_2010_Жеребило Т.В. СЛТ 468с. |
264967 |
36638 |
19073 |
17565 |
92.80174512297758 |
26 |
ШСЛТ_2012_Николина Н.А. Школьный СЛТ 200с. |
48872 |
12819 |
8139 |
4680 |
83.34629235554101 |
В представленной таблице
наглядно видно, что разброс полученных количественных характеристик
относительно не велик, что, очевидно, требует дополнительных исследований и не
только на данной выборке.
Литература
1. Андрющенко В.М.
Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3.
С.42-53. Лингвистический энциклопедический словарь. С.397
2. Бектаев К.Б.
Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР,
1978. 184с.
3. Бектаев К.Б.,
Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая
статистика и моделирование текста. Алма-Ата, 1974.
4. Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как
средство формирования профессиональной компетентности будущего учителя
математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.
5. Кузнецова И.В., Лесников
С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы
народов. Серия: информатизация образования. Москва: РУДН, 2011. №3.
С.70-76.
6. Лапшин В.А. Лекции по
математической лингвистики. М.: Научный мир, 2010.
7. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Математический формализм статистического анализа текстов //
Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20
сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.
8. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов //
Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009.
С.23-30.
9. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры
квантитативного анализа текстов // Национально-культурный компонент в тексте и
языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.
10. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов //
Славянская филология: исследовательский и методический аспекты. Томск: Изд-во
ТомскГПУ, 2009. Вып.2. С.216-231.
11. Лесников С.В. Базовые
блоки автоматизированной лексикографической системы // Вестник Челябинского
государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.
12. Лесников С.В. Галерея
словарей русского языка и текстов художественной литературы на основе новых
информационных технологий в виде открытого гипертекстового свода с адекватным
представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии
языковой коммуникации. Симферополь: Изд-во Таврического экологического
института, 2001. С.30-31.
13. Лесников С.В. Гипертекст
русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция.
26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II.
Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык
художественной литературы. СПб.: Филологический факультет СПбГУ, 2001.
С.360-371.
14. Лесников С.В. Гипертекст
русского языка // Русский язык: исторические судьбы и современность. Международный
конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.
15. Лесников С.В.
Гипертекстовое производство свода лексики русского языка на основе новых
информационных технологий как актуальный процесс интерактивного управления
формированием новых лексикографических знаний в виде открытой системы с
адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII
международный симпозиум по психолингвистике и теории коммуникации. Москва,
1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.
16. Лесников С.В.
Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и
семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.
17. Лесников С.В.
Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования. Самара: ПГСГА, 2011. С.103-117.
18. Лесников С.В.
Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33)
2011. Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.
19. Лесников С.В.
Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл:
ОрелГТУ, 2008. С.213-217.
20. Лесников С.В. Дефиниции
и формулы для компьютерного анализа текстов // Прагмалингвистика и практика
речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.
21. Лесников С.В. Дефиниции
и формулы для численного анализа текстов // Русское народное слово в языке и
речи. Арзамас-Саров: СГТ, 2009. С.219-226.
22. Лесников С.В. Дефиниции
и формулы для численного анализа текстов // Языки профессиональной
коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.
23. Лесников С.В.
Интерактивное моделирование гипертекстового ИПТ метаязыка науки на основе реляционной базы лексикографических материалов
русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158.
24. Лесников С.В.
Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени //
Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.
25. Лесников С.В.
Информационно-поисковая система лексико-семантических вариантов вокабул //
Актуальные проблемы современного научного знания. Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.
26. Лесников С.В.
Квантитативный анализ лексикографических материалов // Русский язык:
исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.
27. Лесников С.В.
Компьютерная версия "Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность.
Труды и материалы // МГУ, 2007. С.621.
28. Лесников С.В.
Конструирование русского лексического универсума // Русский язык в контексте
межкультурной коммуникации. Самара: ПГСГА, 2011. С.392-404.
29. Лесников С.В.
Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии.
М.: ИНТУИТ.РУ, 2011. С.706-713.
30. Лесников С.В.
Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного
университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.
31. Лесников С.В.
Направления и разделы лингвистики в систематическом указателе гипертекстового
информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве.
Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222.
32. Лесников С.В. О
гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред.
А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.
33. Лесников С.В. Проект
конструирования русского тезауруса // Славянские языки и культуры: прошлое, настоящее,
будущее. Иркутск: ИГЛУ, 2011. С.153-163.
34. Лесников С.В. Процедура
разработки информационно-поискового тезауруса метаязыка науки // Вопросы современной лингвистики и методики обучения
иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234.
35. Лесников С.В. Расчет
энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации,
исключительности, предсказуемости, плотности // Родной язык: проблемы теории и
практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.
36. Лесников С.В. Словарь
русских словарей: более 3500 источников. М.: Азбуковник, 2002. 334 с.
37. Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия:
филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.
38. Лесников С.В. Типология
программного обеспечения для компьютерного анализа текстов // Русский язык в
современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011.
С.80-85.
39. Лесников С.В. Типология русских
словарей лингвистической терминологии // Мир науки, культуры, образования.
№6(31). Ч2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.
40. Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия
"Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.
41. Лесников С.В.,
Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ
на основе синонимических рядов // Третья Всесоюзная конференция по созданию
Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.
42. Лесохин М.М., Лукьяненков
К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.: Наука и
техника, 1982.
43. Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка. ВЯ. 1962.N6. С.115-130.
44. Пиотровский Р.Г.,
Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.
45. Тузов В.А.
Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.
46. Филиппович Ю.Н. Ч.1.
Семантические исследования естественно-языкового описания.
http://www.philippovich.ru/Library/Books/Semantics IT/gl1 2/glava1 2.htm
47. Шемакин Ю.И. Начала компьютерной лингвистики. М.: МГОУ, 1992.
48. Шеннон К. Работы по
теории информации и кибернетике. М.:
Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell
System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and
October, 1948.