Современные информационные технологии/

2. Вычислительная техника и программирова­ние

Корпусова Н.Е., Ятимова А. Р., Личаргин Д.В.

Сибирский федеральный университет, Россия

Работа кинетической машины Кирдина как основа построения табличного реферата

На сегодняшний день проблема реферирования текстов актуальна в связи с лавинообразным увеличением объема информации из различных источников. В связи с быстрыми темпами развития науки и техники в каждой научной сфере появляется все больше и больше публикаций,  диссертаций и учебных пособий. Следовательно, чтобы  успеть рассмотреть хотя бы одну отрасль, человеку необходимо ежедневно читать как минимум тысячу страниц текста, причем не на одном, а на десятках языков. Для упрощения обработки больших объемов  литературы и были созданы различные способы их компактного представления без потери смысловой целостности, в том числе и с применением компьютерной техники путём создания множества программных продуктов, помогающих представить текст в виде таблиц, диаграмм, наборов ключевых слов.

Основные задачи данной работы заключаются:

1)  в решении проблемы составления табличного реферата на основе принципов работы кинетической машины Кирдина;

2)  в рассмотрении методов подстановки данных в шаблоны из пространства слов и их представления в форме полноценного реферата, который можно адекватно привести к виду, близкому к первоначальному тексту по смыслу.

Метод табличного реферирования заключается в представлении исходной информации в виде структурированной таблицы. Он ориентирован на выделение основной информации из текста, будь то ключевые фразы или целые предложения.  Основная цель – упрощение восприятия текста. Результатом работы является таблица с кратким изложением исходной научной работы или публикации. С помощью алгоритма построения табличного реферата мы можем сфокусировать внимание на основных пунктах и обязательных фактах источника, пренебрегая незначительными данными и тем самым обеспечивая отсутствие избыточности информации в реферате.

Метод может быть использован в целях реферирования научных и технических статей, научно-популярных текстов и инструкций, так как метод опускает избыточную информацию, ориентируясь на ключевые темы источника.

В методе табличного реферата используются логически объединенные строки и столбцы. Каждый объект может быть представлен как строка или столбец таблицы.

Табличный реферат может быть использован на широком наборе текстов и для различных целей. Вид конечной таблицы зависит от преследуемой человеком-составителем цели. Рассмотрим пример использования таблицы для классификации и описания объектов.

Предположим, что строки являются объектами, а столбцы – свойствами или атрибутами этих объектов. Тогда на пересечении строки и столбца будет отметка, при условии, что объект обладает данным свойством.

Метод табличного реферата ускоряет процесс запоминания основных положений текста, а также облегчает процесс восприятия особо важной информации. Также данный метод помогает в структурировании полученных знаний.

Кинетическая машина Кирдина используется наряду с нормальным алгоритмом Маркова, машиной Колмогорова и Тьюринга или схемой Поста в целях обеспечения процесса пошагового вычисления.  Объект, подвергающийся обработке, это – некоторый ансамбль слов Т. Каждое слово в этом ансамбле может быть представлено в нескольких экземплярах, количество которых  мы обозначим как s. Начало обработки  характеризуется воздействием на эти слова некоторых правил-шаблонов, которые притягивают к себе некоторое количество слов на основе коэффициента «энергетической выгодности» (см. работы Е.О. Горбуновой).

При применении команд P, которые являются лексической или грамматической трансформацией слова из ансамбля T,  функция  f(T) – притяжения к другой структуре изменит свои значения и примется решение о занесении слова или словосочетания в структуру, в нашем случае, структуру табличного реферата. Чем больше трансформаций P, тем меньше энергетическая выгодность, следовательно, такие семантические единицы не будут изыматься из текста, и переноситься на носитель (табличный реферат).

Таблица 1.

Пример табличного реферата

Malware

Virus / worm / Trojan horse is

Malware is shaped into

Aims of malware are

Defense methods against malware are

Self-preservation techniques are

Malware transport mechanisms are

Viruses

Self-replicating program that spreads by attaching itself to other programs

Executable files, boot sectors, documents

Deleting files, corrupting data, displaying messages on the victim's screen.

Virus signatures, heuristics and integrity verifications, principle of least privilege, user education

Polymorphic techniques

Removable storage, e-mail attachments, web downloads and shared directories

Worms

A self-replicating program that spreads via networks

Separate program modules

Planting a distributed denial of service flood agent, opening up a backdoor

System patching, arbitrary outbound connections blocking

 

Buffer overflow exploits, file-sharing services, e-mail

Trojan horses

Non-replicating program that includes hidden malicious functionality

Useful program

Opening up backdoors and sniffers

Showing which programs are listening on TCP and UDP network ports,   MD5 hashes

Steganography methods,  polymorphism

E-mail and web-site downloads

 

Рассмотрим принципы работы кинетической машины Кирдина для нашего исследования в более простом виде. Описывая неформально её работу, можно говорить о банке с некоторым количеством слов (в нашем случае это будут слова исходного текста о вредоносном программном обеспечении), в которую опущены некоторые шаблоны-правила – P1, P2 и P3. Они, сталкиваясь с цепочкой содержащихся семантических единиц, способствуют либо их распаду, либо синтезу или даже замене слов в этой цепочке. Для составления табличного реферата, опираясь на специфику работы этих шаблонов, нам необходимо выделить ключевые фразы из «словесного» набора, то есть в нашем случае необходим синтез пар слов. Каждый шаблон – название столбца, к которому будут притягиваться слова из нижеприведенного текста: «Malware», «Virus/worm/trojan horse + is …», «Malware + is shaped into/can be/can be classified as …» и т.д.

Далее рассмотрим в качестве примера фрагмент текста о вредоносном программном обеспечении. «Computer security expert Edward Skoudis and technical writer William Stallings covered the theme of computer malicious software.  Since computer game «Darwin», which was the first self-replicating program developed in 1962, computer industry has faced with explosive rise malicious programs that pursue illegal purposes. … That was done in order to teach the reader to basic defensive skills against this type of crimes. Viruses are historically first kind of malware. Appeared in the sixties, it became widespread in the end of XX century that resulted in virus epidemic in computer network everywhere…».

 

Рисунок 1. Модель применения машины Кирдина с комплексе других методов на основе рассматриваемого текста «Вредоносное программное обеспечение»

 

В ходе преобразований по принципу работы машины Кирдина получим следующий табличный реферат (см. Таблицу 1). Общий вид модели преобразования текста в табличный реферат можно представить в форме схемы (см. Рисунок 1). Рассмотрим некоторые правила катализаторы машины Кирдина, обеспечивающие преобразования: «текст – семантическая сеть – смысловой шаблон».

Классы множества правил применяемых к словам языка. Для решения проблемы генерации табличного реферата предлагается использовать определенные классы правил-катализаторов в рамках этой модели, для получения на выходе табличного реферата приемлемого качества (что рассматривается в настоящий момент чисто теоретически). Здесь под правилами будем подразумевать преобразование слова S в ряд слов Si ассоциативно близких к первому  по тому или иному критерию. Правила преобразования терминов и общих по значению слов имеют следующий вид с учетом примеров лексических и иных лингвистических трансформаций:

1.       Определения: стремление получить, эмоциональная тенденция, направленность в будущее;

2.       По частям речи: желание, желать, желательный, желательно;

3.       По позиции в предложении: что-то как желание, быть желанием, что-то желания, с учетом желания;

4.       Ряды дифинонимов (разные элементы одной речевой ситуации или явления): желающий, объект желания, страстный, вожделенный;

5.       Ряд близких синонимов: хотение;

6.       Широкий синонимический ряд (с общей 1-3 семами): стремление, нужда, необходимость;

7.       Группы слов контекстуальных синонимов (от 1 и более общей семы): важность / значимость / насущность,  цель / задача / план, идея / проект / концепция, динамика / направленность / сосредоточение;

8.       Метафорические употребления: жажда, алчность, жадность, вожделение;

9.       По категориям, например, множественного числа: с желаниями;

10.   «Атрибуции»: с множеством желаний, с кучей желаний, с чувством желания, с чувством теплоты / прикосновения / огня желания, с эмоциональным / душевным желанием;

11.   Перевод на другой язык: a desire, a wish, to want.

Рисунок 2. Блок-схема алгоритма генерации табличного реферата

 

Таким образом, мы можем сделать вывод о возможной принципиальной разрешимости проблемы составления табличного реферата на основе принципа работы кинетической машины Кирдина в некотором приближении, что требует привлечения определенных человеческих и информационных ресурсов, способных составить необходимые базы данных, знаний и правил.

Выводы. В работе выполнен анализ проблемы формализации процесса построения табличного реферата, предложено общее направление в решении этой проблемы с привлечением такой абстрактной модели как машина Кирдина.

 

Литература:

1.     Д. В. Личаргин, Е. В. Юрьева. Методические указания по дисциплине «Сравнительное языкознание» - Красноярск: ИПК СФУ, 2013. – 138 с.

2.     В. Б. Касевич. Трансформационно-порождающая грамматика. – М: Наука, 1977.