Доцент, к.п.н. Найманова Д.С., магистрант Московченко Е.С.

Павлодарский государственный университет им.С.Торайгырова

К вопросу о разработке системы методов поиска плагиата в учебных текстах

 

Современное развитие информационных технологий и всемирная сеть интернет предоставило пользователям доступ к огромным массивам информации. Появилось большое число online-библиотек, предоставляющих возможность читать книги, новости и газеты непосредственно с экрана компьютера.

Так же в сети интернет стало доступно множество методических указаний, курсов лекций, учебников и т.д. Кроме того, появились огромные коллекции рефератов, готовых курсовых и дипломных проектов. Если раньше для написания реферата или какой-либо работы необходимо было найти в книгах нужный материал и переписать его, то теперь достаточно ввести название нужной темы в любой поисковик и получить нужный материал. Стал распространяться метод написания работ под названием «Copy & Paste» (простое копирование информации из одного или нескольких источников).

Стремительные темпы жизни современных студентов и расчетливый подход к самому процессу получения высшего образования подталкивают большинство учащихся к заказу некоторых письменных работ у сторонних исполнителей. В свете этой практики особо актуальным вопросом является проверка качества выполненной работы.

В то же время, развитие информационных технологий, наряду с безусловными положительными для общества аспектами, повлияло на развитие проблем в таких областях, как защита авторских прав, интеллектуальной собственности, сохранение конфиденциальности информации и другие. Перед преподавателями возникла задача проверки работ студентов на предмет заимствований из интернет-источников, т.е. на наличие плагиата.

Рассмотрим понятие плагиата. Согласно словарю иностранных слов, «Плагиат (лат. plagiatus - похищенный) - присвоение чужого авторства, выдача чужого произведения или изобретения за свое» [4]. А если быть точнее, то плагиат – это присвоение чужого авторства без ведома самого автора или без договоренности с ним.

Плагиат может осуществляться следующим образом:

- полное или частичное копирование текста из одного источника;

- копирование и компоновка текста из нескольких источников;

- копирование текста из другого источника и изменение порядка следования частей текста [1].

В настоящее время существует большое количество сервисов в сети интернет для проверки на плагиат, которые укажут в процентном соотношении наличие заимствований. К ним можно отнести систему «Антиплагиат» (компания «Форексис»), программа Advego Plagiatus, сервис Miratools и другие. Но все они имеют как достоинства, так и недостатки.

Система «Антиплагиат» проводит поиск по большому количеству работ, хранящихся в базе данной системы. Но значительным минусом является то, что система не осуществляет поиск по документам, доступным в сети интернет. Программа Advego Plagiatus осуществляет проверку с использованием поисковых систем и результат выдает в процентном совпадении текста. Отличительным достоинством сервиса Miratools является определение замены русских букв английскими. При проверке сервис использует результаты выдачи поисковых систем.

Проверяемый материал проходит предварительную обработку, в которую входят следующие пункты:

1) Преобразование регистра;

2) Обработка замены символов, т.е. замена русских букв английскими;

3) Обработка окончаний слов;

4) Исключение из текста знаков препинания.

5) Фильтрация текста, которая заключается в удалении наиболее частотных слов, редко встречающихся слов. Так же этой процедуре подвергаются слова, содержащие спецсимволы или слова большой длины.

Анализ вышеприведенных программ позволил выделить следующую структуру проверки текста на плагиат (рисунок 1):

 

 

 

 

 

 

 

 

 

 

 

 

 


Рисунок 1 – Структура системы проверки текста на плагиат

 

На первом этапе осуществляется проверка по внутренней базе документов. Данная база включает в себя уже имеющиеся работы (статьи, курсовые и дипломные работы).

На следующем этапе проводится проверка в сети интернет. Для этого текст документа разбивается на части (число частей зависит от размера документа). Далее с использованием поисковых систем проводится поиск тех источников, в которых имеются указанные информативные части.

И в заключении выдается отчет, в котором в процентном соотношении указано наличие заимствований [2].

Сейчас алгоритмы программы защищены от большого количества манипуляций, которые выполняются студентами для коррекции результата и увеличения уникальности текстов. В частности, система защищена от перестановки абзацев и замены кириллических букв латинскими, от перестановки слов и перегруппировки предложений, от замены пробелов точками, точек запятыми и отдельных слов их синонимами.

В связи с тем, что на данный момент не существует полнофункциональной программы «Антиплагиат», позволяющей производить развернутый анализ казахского текста, перед нами ставится задача разработки собственной системы методов и программного комплекса по поиску текста на плагиат на казахском языке.

Внедрение данного комплекса позволит:

- оптимизировать процесс проверки текстовых работ обучающихся (на русском, казахском, английском и немецком языках), сделать его более качественным, удобным, быстрым и технологичным;

- уменьшить трудозатраты преподавателей, избавить их от рутинного поиска совпадений или заимствований;

- осуществлять мониторинг ситуации с наличием плагиата в работах обучающихся в целом, по факультетам, кафедрам и другим структурным единицам, выявлять проблемные места, осуществлять контроль, как студентов, так и преподавателей [3].

Исследование и разработка системы методов и программного комплекса поиска текста, по нашему мнению, позволит повысить качество системы образовательного процесса за счет развития навыков самостоятельной работы при подготовке к научным работам.

 

Литература:

1. Аушра А. Научная электронная библиотека, как средство больбы с плагиатом// Международный форум Educational Technology & Society 9(3). — 2006.

2. Шарапов Р.В., Шарапова Е.В. Система проверки текстов на заимствование из других источников // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции.. — 2011.

3. SearchInform Плагиат – Информ – система для определения плагиата в документах [Электронный ресурс]. — Режим доступа:  http://www.searchinform.ru/main/full-text-search-plagiarism-search-plagiatinform.html (дата обращения : 11.04.2011).

4. Ефремова Т. Ф. Новый словарь русского языка. Толково-словообразовательный. – М.: Русский язык, 2000.