УДК 007.001.362.

ФОРМИРОВАНИЕ СИСТЕМЫ ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ ПРОГНОЗИРОВАНИЯ КАЧЕСТВА МУКИ

 

Е.А. САВВИНА, Е.А. БАЛАШОВА, В.К. БИТЮКОВ, Е.И. ПОНОМАРЕВА

 

Показано, что коэффициент корреляции определяет точность классификации. Сформирована система информативных признаков для всех четырех классов качества.

Ключевые слова: коэффициент корреляции, кластерный анализ, система информативных признаков.

 

Ключевым моментом при приготовлении хлебобулочных изделий высокого качества является правильное определение качества основного компонента – муки. Однако общей методики определения качества муки до сегодняшнего дня разработано не было [2]. Поэтому формирование системы наиболее информативных признаков для прогнозирования качества муки является весьма актуальным вопросом.

Цель работы: сформировать и описать общую методику выявления наиболее информативных признаков для классификации качества муки разного сорта.

В ходе выполнения работы была сформирована база данных, состоящая из 595 анализов, характеризующих качество муки по 15 признакам. Однако, после формализации качественных признаков в количественные, значения которых были записаны буквами, количество признаков увеличилось до 25. Исходные категориальные признаки были формализованы в бинарные, каждый из которых имел 2 состояния (0 – признак отсутствует, 1 - присутствует). Качество муки описывалось органолептическими и физико-химическими. Было выявлено, что качество муки подразделяется на 4 основные группы: 1 группа (высшее качество) – 140 наблюдений (23,5%), 2 группа (хорошее качество) – 195 (32,8%), 3 группа (плохое качество) – 140 (23,5%), 4 группа (очень плохое качество) – 120 (20,2%).

Для выявления наиболее информативных признаков был использован коэффициент корреляции Пирсона [1], который рассчитывается по формуле:

где  - значение i-ой переменной для j-го объекта;  - среднее всех значений переменных j-го объекта, а n - число переменных.

С помощью корреляционного анализа в общей выборке было установлено, что признаки коррелируют на уровне значимости 0,01 с классом качества муки. В качестве наиболее информативных были отобраны признаки с коэффициентом корреляции, превышающим 0,7. Значения коэффициентов корреляции Пирсона на уровне 0,01 для всех классов качества представлены в таблице 1.

Таблица 1.

Значения коэффициентов корреляции для четырех классов качества

Наименование признака

1 класс

2 класс

3 класс

4 класс

1

Титруемая кислотность

Х2

0,578**

0,263**

-0,112**

-0,801**

2

Массовая доля клейковины

Х3

0,637**

0,186**

-0,154**

-0,729**

3

Цвет муки белый

Х5

0,755**

-0,255**

-0,365**

-0,113**

4

Цвет муки серый

Х6

-0,361**

-0,454**

0,748**

0,122*

5

Цвет муки с желтым

 оттенком

Х7

-0,345**

0,826**

-0,310**

-0,274**

6

Вкус горький

Х11

-0,234**

-0,295**

-0,146**

0,746**

7

Зольность

Х20

-0,578**

-0,362**

0,263**

0,757**

8

Массовая доля золы

Х22

0,143**

0,655**

-0,145**

-0,764**

9

Массовая доля жира

Х23

-0,409**

-0,281**

-0,013*

0,776**

10

Массовая доля клетчатки

Х24

0,516**

0,400**

-0,280**

-0,717**

11

Содержание водорастворимых углеводов

Х25

0,819**

0,023*

-0,305**

-0,571**

 

Для первого класса было выявлено два информативных признака (содержание водорастворимых углеводов Х25 и цвет муки белый Х5), для которых коэффициент корреляции  находится в диапазоне от 0,755 до 0,819. Для 6 признаков r находится в диапазоне 0,516 до 0,637 по модулю, и имеет среднюю тесноту связи с классом качества.

Во второй группе выявлен один специфический признак (цвет муки с желтым оттенком Х7), значение коэффициента корреляции которого равно 0,826. Для двух признаков коэффициент корреляции больше 0,5, то есть теснота связи средняя.

В третьей группе также выявлен один специфический признак (цвет муки серый Х6) значение коэффициента корреляции которого 0,748. Все остальные признаки не имеют значимой корреляции с классом качества, то есть теснота связи средняя.

Четвертый класс имеет корреляцию с 7 (титруемая кислотность Х2, массовая доля клейковины Х3, вкус горький Х11, зольность Х20, массовая доля золы Х22, массовая доля жира Х23, массовая доля клетчатки Х24) признаками значение r находится в диапазоне от 0,717 до 0,801, то есть теснота связи сильная. Для 9 признаков в данной группе коэффициент r находится в диапазоне от 0,546 до 0,698, то есть теснота связи средняя.

На основании проведенного корреляционного анализа можно утверждать, что выделение всех классов качества в общей выборке с приемлемой точностью возможно. Однако наиболее вероятно выделение первого и четвертого классов качества в связи с большим количеством специфических признаков.

При классификации муки методом двухэтапного кластерного анализа были использованы признаки, отобранные на первом этапе методом корреляционного анализа, имеющие значимую корреляцию с классом качества. При этом была принята четырехкластерная структура данных.

Рис. 1. Четырехкластерная структура данных

Таблица 2.

Результаты классификации качества муки

Класс

качества

Точность в классе, %

Процент

ошибок, %

Число правильно классифицированных наблюдений

Очень хорошее качество

100

0

140

Хорошее качество

83,6

16,4

163

Плохое качество

93,5

5,4

133

Очень плохое качество

98,3

1,2

118

 

Анализ полученных результатов показал, что было допущено 41 (6,9 %) ошибок пропусков сигнала и ложных тревог. 32 (5,4 %) наблюдения ошибочно диагностированы как очень хорошее качество вместо хорошего, 2 (0,3 %) случая очень плохого качества отнесены к плохому. 7 (1,2%) ложных тревог – отнесение плохого качества к очень плохому.

Отметим, под термином пропуск сигнала при диагностике качества хлебобулочных изделий подразумевалось, что поставлен более высокий класс качества, чем определено экспертом. Под ложной тревогой - постановка более худшего класса муки.

Исследование физико-химического состава муки дорогостоящая процедура, поэтому для определения качества муки достаточно органолептических (вкус свойственный Х6, вкус кислый Х7, вкус горький Х8, запах свойственный Х9, запах затхлый Х10, запах заплесневелый Х11, наличие хруста Х12) и нескольких физико-химических (влажность муки Х1, титруемая кислотность Х2, массовая доля клейковины Х3, качество клейковины Х4, зараженность вредителями Х13, белизна Х14) показателей. Исключив из классификационной системы признаки, характеризующие физико-химические показатели муки, вновь была проведена классификация, результаты которой совпали с результатами классификации по полной системе признаков.

Таким образом, установлено, что для классификации достаточно наиболее информативных органолептических (цвет муки, наличие хруста) и физико-химических (титруемая кислотность, массовая доля клейковины, белизна) признаков, имеющих значимую корреляцию с классом качества.

Таким образом, предложена методика формирования системы наиболее информативных признаков, где на первом этапе выявляются наиболее информативные признаки методом корреляционного анализа, на втором - классификация качества муки методом двухэтапного кластерного анализа. Также было выявлено, какие признаки не влияют на классификацию и была сформирована оптимальная система признаков, состоящая из органолептических (цвет муки, наличие хруста) и физико-химических (титруемая кислотность, массовая доля клейковины, белизна).

 

Литература:

1.                 Битюков, В.К. Итерационный алгоритм диагностики систем, описываемых набором качественных признаков [Текст] /В.К. Битюков, Е.А. Балашова, К.Ю. Сунцов// Системы управления и информационные технологии.- №4.1.- 2008г.- С.134-138.

2.                 Сборник технологических инструкций для производства хлеба и хлебобулочных изделий.[Текст]. – М.: Прейскурантиздат, 1989.-С.495.