Особенности реализации принципов построения специализированного частотного словаря 
для иностранных студентов

Педагогические науки/5. Современные методы преподавания

Филологические науки/5. или 6.

К.т.н. Лукашин О.В., д.т.н. Лагун И.М.

Тульский государственный университет, Россия

Особенности реализации принципов построения специализированного частотного словаря

для иностранных студентов

Обучение иностранных студентов – весьма перспективное направление развития рынка образовательных услуг, поэтому изучение и оптимизация этого процесса являются актуальными исследовательскими задачами. Так как целью обучения иностранного студента в вузе является получение профессиональных знаний, базой которых служат общетеоретические дисциплины, то повышение эффективности обучения общетеоретическим дисциплинам – задача первоочередная.

На начальном этапе подготовки, этапе довузовского обучения, эта задача – двуединая, что подразумевает не только обучение математическим и естественнонаучным дисциплинам, но и, в некоторой степени, научному стилю речи и специальной лексике. Частотный словарь, основанный именно на той лексике, которая необходима студенту при изучении данной учебной дисциплины, позволяет структурировать языковые знания студента, поддержать навыки владения русским языком и отобрать по критерию минимальной достаточности объем активного лексикона, что актуально именно на пропедевтическом этапе. Очевидно, что такой частотный словарь оптимально выполняет академическую задачу обучения, если он специализирован, т.е. ориентирован на данную учебную дисциплину.

Процесс составления такого словаря по материалам учебников и учебных пособий можно условно разбить на пять этапов:

1) преобразование материала учебного пособия к виду, не нарушающему частотное распределение элементов текста, и допускающему их простой посимвольный анализ;

2) исключение из текста элементов, не несущих смысловой нагрузки, но способных исказить частотную характеристику значащих элементов;

3) отбор словоформ русского языка и кириллических аббревиатур в два отдельных текстовых списка с последующей частотной обработкой списка аббревиатур;

4) исключение из списка словоформ «стоп-слов», его лемматизация и последующая частотная обработка;

5) составление частотного словаря путем перевода обоих словников на целевой иностранный язык, выполненного с учетом специфики предметной области.

Первый этап подразумевает решение трех задач. Первая – преобразование текста учебного пособия в массив символов для возможности анализа и обработки его элементов. Вторая – минимизация в преобразованном тексте числа элементов, не несущих смысловую нагрузку и являющихся следствием перевода в текст формул и рисунков, ошибочно интерпретированных OCR-приложением как элементы текста, а также искажения исходных составляющих текста. Третья – перекодировка массива символов текста простой однобайтной кодировкой (если программа оптического распознавания текста не делает это «по умолчанию») с целью упрощения последующего анализа и обработки текста путем использования регулярных выражений. Следует отметить, что первый этап не является обязательным, так как учебное пособие может быть изначально подготовлено в требуемом виде (например, как doc- или txt-файл).

Второй этап предполагает исключение из редактируемого текста специфических сокращений слов, не несущих смысловой нагрузки, но совпадающих по написанию со «смысловыми» словоформами. Речь идет о таких сокращениях, как «рис.», «прим.» и т.п., которые довольно часто встречаются в тексте пособий и учебников, поэтому пренебречь их влиянием нельзя. Необходимость их удаления из текста вызвана тем, что в процессе отбора «нужных» элементов текста (следующий этап), словоформа «рис.» преобразуется в «рис», а «прим.» в «прим». Иначе говоря, в конечном частотном списке число вхождений слова «рис» (как сельхозкультуры) будет включать количество ссылок на рисунки, а число упоминаний слова «прим» (оперных или балетных прим) будет искажено числом разного рода примечаний. Словоформы данного типа исключаются средствами любого текстового редактора (например, редактора AKELPAD [1]), а именно, путем использования стандартного элемента управления «поиск/замена», где в поле «поиск» указывается подходящее регулярное выражение, а в поле «заменить на» ставится пробел или «пустая строка». Разумеется, исключение таких сокращений имеет смысл лишь в отношении текстов, где «рис», «примы» (и тому подобные термины) упоминаются. В противном случае, их можно включить в список стоп-слов, о котором будет сказано далее.

В результате выполнения первых двух этапов, разработчик имеет в своем распоряжении редактируемый текст, из которого следует исключить всё, кроме кириллических аббревиатур и словоформ русского языка. Под словом «всё» понимаются элементы «лишнего» текста, а именно, одно- и двухбуквенные словоформы (наиболее распространенные предлоги, союзы и частицы, которые изучаются студентами на занятиях по русскому языку), слова и аббревиатуры на иностранных языках, а также числа и различного рода буквенно-символьные наборы (различные числа, коды, номера, маркировки, типовые сокращения, имена аргументов функций, бессмыслицы, вызванные невнимательной работой на первом этапе). Напротив, кириллические аббревиатуры и словоформы русского языка условимся называть элементами «нужного» текста. Удаление «лишнего» текста целесообразно выполнить путем использования регулярных выражений. Поскольку аппарат регулярных выражений разработан исключительно для поиска и/или замены фрагмента(ов) текста, рассматриваемая задача состоит в следующем: нужно составить поисковый метасимвольный шаблон элементов «лишнего» текста (в виде регулярного выражения), и заменить результат поиска на пробел (или пустую строку). Однако, если шаблон «нужного» текста («буквы русского алфавита и/или внутренний дефис» для словоформ, «заглавные русские буквы» – для аббревиатур) практически реализуем, то шаблон «лишнего» текста («хотя бы один некириллический символ в наборе»), являющийся инверсией «нужного» текста, практически реализовать не представляется возможным. Причина – отсутствие операции инверсии метасимвольного набора (инвертировать можно только значение отдельно взятого метасимвола), поэтому реализуем лишь шаблон «не только буквы русского алфавита», который будет находить как нужные, так и ненужные единицы текста одновременно. Данную проблему позволило бы решить наличие функции инверсии текста (находим наборы из русских букв и инвертируем выделение), но в современных текстовых редакторах (и даже текстовых процессорах) она почему-то отсутствует. Таким образом, на третьем этапе составления словаря, вместо операции «поиск/замена» применяется операция «поиск/отбор» – с помощью поискового шаблона выделяются «нужные» элементы текста, а затем посредством операции «вырезать/вставить» они помещаются (отбираются) в отдельный документ в виде текстового списка.

Процедура предполагает отбор аббревиатур и словоформ в два отдельных списка, с последующим преобразованием символов списка словоформ к нижнему регистру. Такое разделение (на два списка) вызвано двумя причинами. Во-первых, выделение аббревиатур в отдельный словник целесообразно ввиду того, что иностранным студентам не составит труда отличить аббревиатуру от словоформы, поэтому в целях упрощения поиска, словоформы и аббревиатуры следует разделить в два словника. Во-вторых, отбираемые из текста словоформы могут начинаться заглавной буквой (первое слово предложения). Это означает, что нужно преобразовать все буквы выбранных по шаблону словоформ к нижнему регистру до процесса их лемматизации, либо в настройках лемматизатора установить флажок «не различать регистр букв». Но в таком случае наличие аббревиатур в списке словоформ может породить ситуацию, когда, например, аббревиатура ВЕСТИ будет рассматриваться как измененная форма слова «весть». В результате, во-первых, исказится частотная характеристика некоторых лемм, во-вторых, может быть потеряно некоторое количество аббревиатур. Обе ситуации нежелательны. Кроме того, шаблон поиска аббревиатур допускает двухбуквенные комбинации, в то время как шаблон поиска словоформ такие слова игнорирует (как элементы «лишнего» текста, охарактеризованного ранее).

Для выполнения описанной выше процедуры отбора был выбран текстовый процессор WRITER, входящий в состав бесплатного офисного программного пакета Apache Open Office [2]. Выбор в пользу этого приложения сделан не случайно. Дело в том, что среди бесплатных текстовых редакторов (процессоров), только WRITER позволяет выделить для редактирования (осуществления операции «вырезать/вставить») фрагменты текста, найденные по метасимвольным шаблонам. Остальные редакторы, распространяемые бесплатно, лишь маркируют найденный текст (подсвечивают, но не выделяют для редактирования).

Важно отметить, что, так как аббревиатуры не имеют морфологически измененных форм, их частотная обработка сводится к обычной сортировке по убыванию частоты, которую можно выполнить средствами того же WRITER-а. Таким образом, третий этап логично завершить окончательным формированием частотного списка аббревиатур, требующего лишь перевода на целевой иностранный язык.

На четвертом этапе реализуется частотная обработка списка словоформ. Ее следует начать с удаления из списка словоформ так называемых стоп-слов, состоящих из более чем двух букв русского языка. Это – часто используемые слова, хорошо известные иностранным учащимся. Предполагается, что число стоп-слов конечно, поэтому их можно сформировать в отдельный текстовый список, образующий множество исключений. Отсеивание этих слов производится с помощью приложений, поддерживающих операции с символьными множествами (объединение, пересечение, разность текстовых множеств). К таким приложениям относится, в частности, корпус-менеджер ANTCONC [3,4]. Его применение для исключения стоп-слов, целесообразно как с точки зрения минимизации используемых программ (ANTCONC применяется для лемматизации списка словоформ, таким образом, является необходимой частью программного комплекса разработки частотного словаря), так и ввиду простого и наглядного интерфейса этого программного продукта. Список стоп-слов предварительно согласовывается с преподавателями, проводящими с иностранными студентами занятия по русскому языку.

Далее, требуется отсортировать список словоформ по убыванию частоты вхождения. Однако, в отличие от частотного списка аббревиатур, стандартный частотный список словоформ имеет два существенных недостатка. Во-первых, он необъективен с точки зрения реальной частоты появления слова в тексте, так как каждая морфологическая форма (словоформа) одного и того же слова будет подсчитываться как отдельное слово. И, во-вторых, список лексем получается весьма громоздким даже в случае краткого учебного пособия.

Ввиду вышеуказанных недостатков целесообразно лемматизировать список словоформ до операции его частотной обработки. Лемматизация – процедура замены исходной вариантной формы слова на каноническую [5]. Под канонической (нормальной) формой слова, имеющей название «лемма» (отсюда и сам термин «лемматизация»), понимается та его форма, которая традиционно указывается в словарях. Для существительных это единственное число, именительный падеж, для прилагательных – единственное число, именительный падеж, мужской род, для глаголов – неопределенная форма и т.д. В результате, все словоформы, относящиеся к одной лексеме (одному множеству морфологически измененных форм конкретного слова), будут подсчитываться как одно слово, что даст гораздо более объективную информацию о появлении данного слова в тексте. Лемматизация слов текста выполняется посредством специальных программ, подавляющее большинство которых является платным коммерческим продуктом. Поэтому, исходя из рекомендаций Станкевича А.Ю. [4] по использованию программного обеспечения при составлении словарных минимумов, привязанных к данной предметной области, был сделан выбор в пользу бесплатно распространяемого корпус-менеджера (конкордансера) ANTCONC. Данное приложение не содержит модуль проверки морфологии, но может осуществлять лемматизацию на основе подстановочной таблицы, кроме того, выполняет ряд крайне важных функций, к числу которых относятся операции с текстовыми множествами, а также сортировка словоформ и их лемм по частоте вхождения или алфавиту. В дополнение ко всему, ANTCONC представляет лемматизированный частотный список лексем в крайне удобной для визуального просмотра табличной форме. Программа позволяет подключить для работы грамматический словарь А.А. Зализняка [6], оформленный в виде таблицы подстановки – текстового файла, каждая строка которого описывает соответствие между конкретной лексемой (в виде множества всех слововорм) и ее леммой.

Наконец, на пятом этапе формируется словарь из частотного списка. Для того, чтобы словарь не был громоздким, нижнюю часть списка (например, нормальные формы лексем, встречающихся в тексте менее 4 раз) можно отбросить. Окончательный вариант списка нормальных форм лексем вводится в какое-либо приложение многоязычного перевода, например, мощное бесплатное приложение LINGOES [7]. Получаем два списка слов – список нормальных форм слов на русском языке и список их переводов на целевой иностранный язык. Затем эти списки экспортируются в любое специализированное приложение по созданию словаря, или, например, двумя колонками в приложение OpenOffice CALC [2]. Поскольку перевод слов (имеющих, в большинстве случаев, несколько значений) осуществляется без учета контекста, список переведенных на иностранный язык слов следует уточнить с помощью какого-либо корректирующего алгоритма.

В качестве достоинств разработанной методики строго формализованного алгоритма действий для формирования частотного словаря представляется важным отметить:

– относительную простоту применения; это означает, что выполнение отдельных этапов не требует специфических знаний в области информационных технологий,

– унификацию каждого этапа методики, что делает ее независимой от предметной области изучения,

– использование в рамках предложенной методики составления словаря программного комплекса, основанного исключительно на бесплатных приложениях,

– небольшое время, необходимое для составления словаря, которое определяется, в основном, лишь ручными операциями, зависящими от формата исходного материала.

Использование частотного словаря, отражающего именно ту лексику, которая встретится иностранному студенту при изучении данной учебной дисциплины во время самостоятельной работы с учебниками, позволяет сократить время подготовительного и вспомогательного этапов работы с текстом, а также систематизировать имеющиеся языковые знания, что положительно сказывается на эффективности обучения.

Литература:

1. http://akelpad.sourceforge.net/ru/

2. http://www.openoffice.org/ru/

3. http://www.antlab.sci.waseda.ac.jp/index.html

4. Станкевич, А.Ю. Поиск контекстов и оценка их типичности средствами AntConc (Laurence Anthony) / А.Ю. Станкевич // Теория и практика преподавания русского языка как иностранного: достижения, проблемы и перспективы развития: материалы V Междунар. науч.-метод. конф. Минск / Редкол.: С.И. Лебединский, (гл. ред) [и др.].– Минск: Изд. Центр БГУ, 2011.– 227 с.– С. 210–213.

5. Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004.- 248 с.

6. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М: 4-ое изд. М: Русские словари, 2003.

7. http://www.lingoes.net/