УДК 007.001.362
Саввина
Е.А.
Воронежский
Государственный Университет Инженерных Технологий
МЕТОДЫ
КЛАССИФИКАЦИИ СИСТЕМ
РАЗЛИЧНОЙ
ПРИРОДЫ И СЛОЖНОСТИ
Целью данной работы является сравнительный
анализ кластерного, нейросетевого и дискриминантного методов классификации,
выявление наиболее информативных признаков, влияющих на точность классификации.
Методика классификации муки осуществляется в
четыре этапа: на первом - отбор наиболее информативных признаков методом корреляционного
анализа, на втором - классификация наблюдений кластерным методом, на третьем
-дискриминантным методом, на четвертом – нейросетевым.
В ходе выполнения работы была сформирована база
данных, состоящая из 595 анализов,
характеризующих качество муки по 15
признакам. Однако, после формализации качественных признаков в количественные,
значения которых были записаны буквами, количество признаков увеличилось до 25. Исходные категориальные признаки
были формализованы в бинарные, каждый из которых имел 2 состояния (0 – признак
отсутствует, 1 - присутствует).
Качество муки описывалось органолептическими и физико-химическими. Нами была
выявлено, что качество муки подразделяется на 4 основные группы: 1
группа (высшее качество) – 140 (23,5%), наблюдений 2 группа (хорошее качество) – 195
(32,8%), 3 группа (плохое
качество) – 140 (23,5%), 4 группа (очень плохое качество) – 120 (20,2%) [1].
На первом этапе для принятия решений об
отнесении муки к определенному классу необходимо отобрать наиболее
информативные признаки для каждого класса качества. Было выявлено, что первый
класс имеет два информативных признака. Для
второго, третьего классов было выявлено по одному информативному признаку.
Четвертый класс имеет 7 информативных
признаков.
При классификации муки методом двухэтапного
кластерного анализа были использованы признаки, отобранные на первом этапе
методом корреляционного анализа, имеющие значимую корреляцию с классом
качества. При этом была принята четырехкластерная структура данных.
Анализ полученных результатов
показал, что было допущено 41 (6,9 %)
ошибок пропусков сигнала и ложных
тревог. 32 (5,4 %) наблюдения
ошибочно диагностированы как очень хорошее качество вместо хорошего, 2 (0,3 %) случая очень плохого качества
отнесены к плохому. 7(1,2%) ложных тревог
– отнесение плохого качества к очень плохому.
Отметим, под термином
пропуск сигнала при диагностике качества хлебобулочных изделий подразумевалось,
что поставлен более высокий класс качества, чем определено экспертом. Под
ложной тревогой - постановка более худшего класса муки.
В случае применения
дискриминантного анализа на третьем этапе классификации была сформирована
обучающая выборка из 50 наблюдений (8,4%), содержащая все классы муки [2].
Первые две наиболее
дискриминирующие канонические функции и центры в классах качества представлены
на рисунке 1.

Рис. 1. Канонические
дискриминантные функции для 4 классов качества и центры групп
наблюдения 1 группы,
- второй группы,
- третьей группы,
- четвертой группы,
- центроиды групп.
Функция D1 обладает большими
дискриминирующими возможностями, так как ее собственное значение равно 202,58. Процент объясненной дисперсии 95,1%, значение канонической корреляции 0,998 и распределение χ2 5221,9 подтверждает дискриминационные
возможности функции D1 и то, что данная
функция статистически значима.
По результатам
классификации методом дискриминантного анализа выявлено, что число случаев
ложной тревоги составило 5 (3,6 %). Выявлено
два случая (1,3 %) пропуска сигнала, из них в одном наблюдении (0,5%)
хорошее качество было неверно классифицировано как очень хорошее качество, в
другом случае (0,7%) плохое качество
расценено как хорошее.
На четвертом этапе
классификация проводилась методом нейронных сетей. Обучение нейронной сети
проводилось по 409 наблюдениям,
качество которых уже известно. Тестирование обученной сети проводилось по
оставшимся в обучающей выборке состоящей из 186
наблюдений [1]. Тестирование обученной сети по контрольной выборке показало,
что нейронная сеть способна верно предсказывать 97,0% наблюдений классов качества. Было выявлено два (5,7 %) пропуска сигнала и три (8,1%) ложные тревоги.
Таким образом,
организация системы информативных признаков, позволяет классифицировать по
признакам качество муки методомами двухэтапного кластерного, дискриминантного и
нейросетевого анализа.
ВЫВОД:
1.
Была
построена методика классификации биотехнологических систем различной природы и
сложности (на примере классификации качества муки), где на первом этапе –
проводится отбор наиболее информативных признаков, на втором – классификация
двухэтапным кластерным анализом, на третьем – дискриминантным, на четвертом –
нейросетевым.
2.
При
анализе несколькими было выявлено, что наибольшее число наблюдений было
правильно классифицировано методом нейронных сетей. Однако недостатком данного
метода является большое количество итераций для достижения минимальной ошибки и
время, необходимое для построения нейронной сети.
3.
Метод кластерного и дискриминантного анализа
показали несколько худшие усредненные результаты диагностики. Однако
преимуществом данных методов является быстрота их выполнения.
Литература:
1.
Бююль
А., Цёфель П. SPSS: искусство обработки информации, анализ статистических
данных и восстановление скрытых
закономерностей.- СПб.: ООО «ДиаСофтЮП», 2002.-608с.
2.
Бессокирная
Г.П. – Дискриминантный анализ для отбора информативных переменных.- М.:
Статистические методы и анализ данных, 2003. №16.-25с.
3.
Балашова
Е.А., Битюков В.К., Журавлева Е.А. Классификация качества хлеба методом
двухэтапного кластерного анализа. - Сборник трудов конференции ММТТ-25, 2012г.