Филологические науки/ Русский язык и литература

К.ф.н., доц. Лесников Сергей Владимирович

Сыктывкарский государственный университет, Сыктывкар, Россия

serg@lsw.ru; lsw@mail.ru; lsw@syktsu.ru www.lsw.ru  http://ЛСВ.РФ.

Расчёт индекса предсказуемости русских
словарей лингвистических терминов

Данная статья публикуется при финансовой поддержке Российского фонда фундаментальных исследований  по исследовательскому проекту  (грант) N 11-07-00733 (2011-2013) «Гипертекстовый [Лесников С.В. Омск, 2011. С.146-151] информационно-поисковый [Лесников С.В. Комсомольск–на–Амуре, 2011. С.227-234]  тезаурус [Лесников С.В. Иркутск, 2011. С.153-163]  /ИПТ/ «Метаязык [Лесников С.В. Курск, 2011. С.11-16]  науки [Лесников С.В. Москва-Магнитогорск-Новосибирск, 2011. С.30-34]» (структура; математическое, лингвистическое [Лесников С.В. Челябинск, 2011. С.200-202] и программное обеспечения [Лесников С.В. Биробиджан, 2011. С.80-85]; разделы лингвистика [Лесников С.В. Ярославль, 2011. С.214-222], математика [Кузнецова И.В., Лесников С.В. М., 2011. С.70-76], экономика [Лесников С.В., Найденов Н.Д., Новокшонова Е.Н. Красноярск, 2011. С.138-150]) (научный руководитель С.В. Лесников)» [ЛСВ.РФ, ГИЗАУРУС.РФ, МФРЯ.РФ, agora.guru.ru/conf_iitnio-2011, lsw.ru, umk.lsw.ru, www.mmik.ru, moodle.syktsu.ru, subscribe.ru/catalog/linguistics.kto, subscribe.ru/catalog/linguistics.rusling, www.famous-scientists.ru/2965, subscribe.ru/science.humanity.hypervault].

Ключевые слова: гизаурус, лингвистика, метаязык, поиск, тезаурус, текст, язык.

Для формализованного (автоматического, автоматизированного, алгебраического, аналитического, валентностного), вычислительного, дистрибутивного, инженерного, квантитативного, кибернетического, комплексного (программа ВААЛ), компьютерного, количественного, контентного, математического [Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.; Гладкий А.В.; Беляевская М.И.; Пальм Р.], машинного, механистического, статистического, численного, факторного, цифрового…) анализа текстовой информации надо определиться с базовыми понятиями: что именно и по каким формулам будем считать. Основные понятия лингвистической статистики и методические указания по применению математических методов можно найти у К.Б.Бектаева и Р.Г.Пиотровского [Бектаев 1974].

Количественный анализ текста предполагает расчёт ряда некоторых количественных, квантитативных, математических, статистических, численных характеристик корпуса лексикографических источников, напр.,:

N = объём текста = число лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа, лексема) в тексте.

Nletter = число букв в тексте.

Nsyllable = число слогов в тексте.

Nclause = число предложений в тексте.

L = число ЛЕ в тексте, которые встретились в тексте хотя бы один раз.

Lf1 = ЛЕ, которые встретились в тексте только один раз.

Lfk = число ЛЕ, которые встретились в тексте с частотой больше одного раза.

Lr1 = максимальная частотность ЛЕ.

Fi = абсолютная частота ЛЕ.

F*i = накопленная абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих абсолютных частот ЛЕ.

fi  = Fi / N - относительная частота ЛЕ.

f*i = F*i  / N - накопленная относительная частота ЛЕ.

Lword = средняя длина слова в буквах (среднее число букв в слове, подсчитанное для каждой выборки).

Lclause = средняя длина предложений в словах (среднее число слов в предложении, подсчитанное для каждой выборки);  = длина i предложения.

Lsyllable = средняя длина слов в слогах (среднее число слогов в слове, подсчитанное для каждой выборки).

Lsyllable3 = среднее число "длинных" слов (более трех слогов). Lsyllable3 i = число "длинных" слов в i предложении.

Lempty = количество служебных слов в предложении (среднее число союзов, предлогов и частиц в предложении для каждой выборки).

Hi = - fi  log fi - удельная энтропия ЛЕ.

H*k =  - накопленная энтропия текста, равная сумме Hi.

IC = (fr12+ L2)^1/2  - индекс дистрибуции (чем IC больше, тем богаче словарь текста).

Ii = индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.

Ie = индекс исключительности (специфичности) лексики Ie=20*Lf1/N.

Iq = Lfk/N - индекс плотности текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем Iq ниже ).

IP = индекс предсказуемости (предполагается, что чем IP меньше, тем привлекательнее текст) IP = 100 - (Lf1*100)/N .

n =  число абзацев в тексте.

m = число абзацев текста, в которых встретилась ЛЕ.

K i = Fi * m / (N * n) коэффициент важности ЛЕ.

Iext = объем экстенсивности словаря текста. Пропорционален широте лексики, разнообразию выражения.

If = индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ. Если If больше, то главное не форма, а содержание (для беглого нестилизованного чтения, спонтанная речь). If меньше у художественных текстов, беллетристики.


 

 

Таблица. Словари лингвистических терминов  /СЛТ/

Слов (ЛЕ) N

ЛЕ хотя бы один раз L

ЛЕ только один раз Lf1

ЛЕ чаще чем раз Lfk

Индекс предсказуемости P

1

ЛС_1946_Жирков Л.И. Лингвистический словарь 157с

42292

9430

5358

4072

87.33093729310508

2

СЛТ_1960_Марузо Ж. СЛТ 436с

81975

15457

8755

6702

89.31991460811223

3

ЛСПШ_1964_Вахек Й Лингвистический словарь Пражской школы 351с

58702

9403

5123

4280

91.27286974890123

4

САЛТ_1964_Хэмп Э. Словарь американской лингвистической терминологии словарь 264с

53459

10159

5708

4451

89.3226584859425

5

СЛТ_1966_Ахманова О.С. СЛТ 608с.txt

181472

24501

12391

12110

93.17194939164169

6

ССЛТ_1975_Розенталь Д.Э., Теленкова М.А. Сл-спр лингвистических терминов

120657

23823

14080

9743

88.33055686781537

7

КЛС_1976_Нечаев Г.А. Краткий лингвистический словарь 184с

52127

10553

6035

4518

88.4225065704913

9

ТТПЛ_1978_Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике 376с

36373

5442

2370

3072

93.48417782421026

10

ССЛТ_1979_Едличка А. Словарь славянской лингвистической терминологии 2тт 1977-79 592+498с 2266 терминов Русский словник

16067

4146

2751

1395

82.87794859027821

11

КССР_1991_Касаткин и др Краткий справочник по СРЯ 383с

105247

21457

12664

8793

87.96735298868376

12

КСЛТ_1995_Васильева Н.В. и др Краткий СЛТ 175с

48880

12510

7565

4945

84.52332242225859

13

ССЛТ_1995_Эмирова А.М. Словарь-справочник лингвистических терминов

20101

6012

3716

2296

81.51335754440078

14

КЛС_1997_Потапов В.В. Краткий лингвистический справочник Языки и письменность 197с

55635

11789

6971

4818

87.47011773164375

15

РЯЭ_1997_Караулов Ю.Н. гл.ред. РЯ. Энциклопедия 703с

321777

47847

27081

20766

91.58392302743826

16

РЯШСС_2002_Стариченок В.Д. Русский язык Школьный словарь-справочник 352с

84987

19841

11832

8009

86.07787073317095

17

ЛТС_2003_Апресян Ю.Д. Лингвистическая терминология словаря из НовОбСлСинРЯ 31с

25267

6831

4039

2792

84.01472276091344

18

СРЛТ_2004_Абрегов А Н и др Словарь русской лингвистической терминологии 347с

96046

19378

10995

8383

88.55236032734315

19

УСЛТ_2005_Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный СЛТ

49609

13009

7983

5026

83.90816182547522

20

ЛТСКТС_2007_Варпахович Л.В. Лингвистика в таблицах и схемах Кр. термин. сл.

6945

2514

1614

900

76.76025917926566

21

ШЛС_2007_Лемов А.В. Школьный лингвистический словарь 384с

63081

13749

8021

5728

87.28460233667823

22

БЛС_2008_Стариченок В.Д. Большой ЛС 812c

210072

37575

20525

17050

90.22954034807114

23

ЭССЛТП_2008_Тихонов А.Н. и др Энц Сл Спр лингвистических терминов и понятий 2тт.

649575

70008

36590

33418

94.36708617172766

24

ПСЛТ_2010_Матвеева Т.В. Полный СЛТ 564с.

154389

27702

15472

12230

89.97856064875089

25

СЛТ_2010_Жеребило Т.В. СЛТ 468с.

264967

36638

19073

17565

92.80174512297758

26

ШСЛТ_2012_Николина Н.А. Школьный СЛТ 200с.

48872

12819

8139

4680

83.34629235554101

 

В представленной таблице наглядно видно, что разброс полученных количественных характеристик относительно не велик, что, очевидно, требует дополнительных исследований и не только на данной выборке.

Литература

1.       Андрющенко В.М. Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический энциклопедический словарь. С.397

2.       Бектаев К.Б. Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.

3.       Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974.

4.       Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как средство формирования профессиональной компетентности будущего учителя математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.

5.       Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы народов. Серия: информатизация образования. Москва: РУДН, 2011. №3. С.70-76.

6.       Лапшин В.А. Лекции по математической лингвистики. М.: Научный мир, 2010.

7.       Лесников Г.С., Лесникова Д.С., Лесников С.В. Математический формализм статистического анализа текстов // Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.

8.       Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009. С.23-30.

9.       Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры квантитативного анализа текстов // Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.

10.    Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов // Славянская филология: исследовательский и методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.

11.    Лесников С.В. Базовые блоки автоматизированной лексикографической системы // Вестник Челябинского государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.

12.    Лесников С.В. Галерея словарей русского языка и текстов художественной литературы на основе новых информационных технологий в виде открытого гипертекстового свода с адекватным представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь: Изд-во Таврического экологического института, 2001. С.30-31.

13.    Лесников С.В. Гипертекст русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция. 26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II. Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык художественной литературы. СПб.: Филологический факультет СПбГУ, 2001. С.360-371.

14.    Лесников С.В. Гипертекст русского языка // Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.

15.    Лесников С.В. Гипертекстовое производство свода лексики русского языка на основе новых информационных технологий как актуальный процесс интерактивного управления формированием новых лексикографических знаний в виде открытой системы с адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII международный симпозиум по психолингвистике и теории коммуникации. Москва, 1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.

16.    Лесников С.В. Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.

17.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования.  Самара: ПГСГА, 2011. С.103-117.

18.    Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33) 2011.  Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.

19.    Лесников С.В. Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл: ОрелГТУ, 2008. С.213-217.

20.    Лесников С.В. Дефиниции и формулы для компьютерного анализа текстов // Прагмалингвистика и практика речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.

21.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Русское народное слово в языке и речи. Арзамас-Саров: СГТ, 2009. С.219-226.

22.    Лесников С.В. Дефиниции и формулы для численного анализа текстов // Языки профессиональной коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.

23.    Лесников С.В. Интерактивное моделирование гипертекстового ИПТ метаязыка науки на основе реляционной базы лексикографических материалов русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158. 

24.    Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.

25.    Лесников С.В. Информационно-поисковая система лексико-семантических вариантов вокабул // Актуальные проблемы современного научного знания.  Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.

26.    Лесников С.В. Квантитативный анализ лексикографических материалов // Русский язык: исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.

27.    Лесников С.В. Компьютерная версия "Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность. Труды и материалы // МГУ, 2007. С.621.

28.    Лесников С.В. Конструирование русского лексического универсума // Русский язык в контексте межкультурной коммуникации.  Самара: ПГСГА, 2011. С.392-404.

29.    Лесников С.В. Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии. М.: ИНТУИТ.РУ, 2011. С.706-713. 

30.    Лесников С.В. Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.

31.    Лесников С.В. Направления и разделы лингвистики в систематическом указателе гипертекстового информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве. Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222. 

32.    Лесников С.В. О гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред. А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.

33.    Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры: прошлое, настоящее, будущее. Иркутск: ИГЛУ, 2011. С.153-163.

34.    Лесников С.В. Процедура разработки информационно-поискового тезауруса метаязыка науки // Вопросы современной лингвистики и методики обучения иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234. 

35.    Лесников С.В. Расчет энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации, исключительности, предсказуемости, плотности // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.

36.    Лесников С.В. Словарь русских словарей: более 3500 источников. М.: Азбуковник, 2002. 334 с.

37.    Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия: филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.

38.    Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85.

39.    Лесников С.В. Типология русских словарей лингвистической терминологии // Мир науки, культуры, образования. №6(31). Ч2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.  

40.    Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия "Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.

41.    Лесников С.В., Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ на основе синонимических рядов // Третья Всесоюзная конференция по созданию Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.

42.    Лесохин М.М., Лукьяненков К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.: Наука и техника, 1982.

43.    Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка. ВЯ. 1962.N6. С.115-130.

44.    Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.

45.    Тузов В.А. Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.

46.    Филиппович Ю.Н. Ч.1. Семантические исследования естественно-языкового описания. http://www.philippovich.ru/Library/Books/Semantics IT/gl1 2/glava1 2.htm

47.    Шемакин Ю.И.  Начала компьютерной лингвистики.  М.: МГОУ, 1992.

48.    Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948.