К.т.н.Жарковский А.В., к.т.н Лямкин А.А., к.т.н Микуленко Н.П.,

к.т.н Тревгода С.А.

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

Использование ключевых фраз

для автоматического реферирования научно-технического текста

 

При разработке системы управления зачастую требуется проанализировать большое количество научно-технической информации и получить краткий обзор текущего состояния проблемы. В таких условиях особую актуальность приобретают методы автоматического и автоматизированного интеллектуального реферирования. В настоящее время известны два основных направления в решении проблемы автоматического реферирования:

1) удаление из исходного текста всех «ненужных» предложений (экстракция)

2) самостоятельное построение реферата исходного текста (абстракция).

На основе анализа существующих подходов был выбран подход на основе экстракции, поскольку методы, основанные на экстракции, легко настроить для обработки крупных массивов информации, они устойчивы и не требуют наличия баз знаний и различных словарей.

Исходя из теории риторической структуры [1] связанные тексты представляют собой не просто набор предложений, а имеют внутреннюю структуру, которая характеризуется набором функциональных отношений, то есть отношений, несущих некую семантическую информацию о тех текстовых частях, которых они соединяют.

Одной из главных задач в построении дискурсной структуры текста является определение набора функциональных отношений между элементарными текстовыми единицами (ЭТЕ), или частями предложений. На данный момент большинство исследователей считают, что решить эту задачу можно только с использованием глубокого семантического анализа текста [2]. В данном докладе предлагается альтернативный подход к решению этой задачи: на основе анализа ключевых фраз. Такой подход представляется разумным ввиду отсутствия полных баз знаний, соответствующих словарей для русского языка, а также необходимости иметь специалистов в конкретной области.

Построение дискурсной структуры текста предполагает выполнение двух основных этапов: определение функциональных отношений по исходному тексту  и собственно построение дискурсного дерева. Процесс определения функциональных отношений начинается с разбиения текста на ЭТЕ. В качестве индикатора границ между ними и для определения отношений между ЭТЕ эффективно используются ключевые фразы. В докладе предлагается следующая схема их использования. Определяется список ключевых фраз, для каждой из них выбирается несколько текстов из корпуса научно-технических текстов на русском языке, анализируется роль данной ключевой фразы в тексте, в том числе, какое функциональное отношение она определяет. Результатом применения этой схемы является набор параметров для каждой ключевой фразы. К таким параметрам относятся, например, статус связанных элементов, количество частей предложения, связанных функциональным отношением, типы элементов, связанных функциональным отношением и т.п.,

Алгоритм определения функциональных отношений основан на эмпирических данных, полученных из корпуса научно-технических текстов, и включает в себя четыре этапа.

1. Разбиение текста на предложения и определение для каждого из них набора ключевых фраз, или дискурсных маркеров.

2. Разбиение каждого предложения на части (ЭТЕ)

3. Определение функциональных отношений среди ЭТЕ.

4. Определение функциональных отношений для еще несвязанных элементов.

На первом этапе определяются регулярные выражения для ключевых фраз. Далее анализируется весь текст целиком и запоминается расположение ключевых фраз и других орфографических маркеров в тексте.

На втором этапе анализатор текста обрабатывает его слева направо по предложениям и выполняет действия, связанные с набором маркеров.

На третьем этапе алгоритм пробегает по всем ЭТЕ и для каждого маркера строит дизъюнктивное множество отношений, которые определяет текущий маркер. Дизъюнктивное множество отношений является исключающим, так как любое отношение из него может быть использовано только один раз.

Для несвязанных элементов необходимо выполнить дополнительные действия для определения отношений, при этом предполагается что, если два предложения «говорят» об одном и том же, то, вероятно, что последующее предложение детализирует предыдущее. Иначе, они относятся к разным темам.

Преимуществом предложенного подхода является обеспечение робастной реализации и отсутствие необходимости в больших источниках знаний и словарей, а также специалистов в конкретной предметной области. Следует заметить, что получение функциональных отношений из исходного текста является первым из двух этапов решения задачи автоматического реферирования, и этот набор отношений является входными данными для этапа построения древовидной структуры текста.

Список литературы

1. Inderjeet Mani. Automatic summarization (Natural Language Processing) - John Benjamins Publishing Company, 2001 - 285 с.

2. Inderjeet Mani, Mark T. Maybury. Advances in automatic text summarization - The MIT Press, 1999 - 434с.