УДК 007.001.362.

МЕТОДИКА КЛАССИФИКАЦИИ ПРОБ МУКИ,

ПРИГОДНОЙ ДЛЯ ХЛЕБОПЕЧЕНИЯ

 

Е.А. САВВИНА, Е.А. БАЛАШОВА, В.К. БИТЮКОВ, Е.И. ПОНОМАРЕВА

 

Показано, что теснота связи признаков и классов состояния определяет точность классификации. Предложена иерархическая схема классификации объектов. Разработан алгоритм классификации данных и новая классификационная система качества хлебобулочных изделий.

Ключевые слова: коэффициент корреляции, кластерный анализ, классификационная система

Качество хлебобулочных изделий из пшеничной муки зависит от свойств сырья и точности соблюдения норм технологического процесса. При одной и той же технологии изготовления возможно получение хлеба различного качества из основного ингредиента - муки. В зависимости от вида муки, хлебобулочные изделия имеют обширную классификацию [2], однако классифицировать хлеб в зависимости от качества муки оставалось невозможным. Поэтому задачи определения взаимосвязи между показателями муки и качеством хлеба, и создание новой классификации хлебобулочных изделийвесьма актуальны.

Цель работы: определить взаимосвязь между показателями муки и качеством хлеба, выявить наиболее информативные признаки, предложить классификацию состояния качества хлеба белого из пшеничной муки первого сорта (ГОСТ Р 52189-2003).

В ходе выполнения работы была сформирована база данных, состоящая из 150 анализов, характеризующих качество муки и готового хлеба по 22 признакам. Каждый анализ описывался органолептическими (вкус, запах, цвет, хруст, зараженность вредителями) и физико-химическими (влажность, белизна, зольность, крупность помола, количество и качество сырой клейковины, массовая доля белка, золы, жира, клетчатки, активная и титруемая кислотность) показателями муки, а также физико-химическими показателями хлеба (влажность мякиша, кислотность, пористость).

Для формирования выборки были изучены показатели муки с Верхнехавского мукомольного комбината, и показатели хлеба, выпеченной из полученной муки на кафедре Технологии хлебопекарного, макаронного и кондитерского производства (ТХМКП) воронежского государственного университета инженерных технологий (ВГУИТ). Для определения классификации была создана комиссия из 5 экспертов, которым были предложены сгруппированные наблюдения. Экспертный метод позволил разделить данные наблюдения на 4 группы качества. Первая группа (класс 1 высшего качества) – 35 наблюдений (23,3%), вторая (класс 2 хорошего качества) –50 (33,3%), третья (класс 3 плохого качества) –35 (23,3%), четвертая (класс 4 очень плохого качества) –30 (20,0%).

Качество хлеба оценивается качественными и количественными признаками. Для улучшения классификации необходимо формализовать качественные признаки. Одним из методов формализации признаков является переход из качественных характеристик в бинарные признаки. В базе данных присутствуют категориальные признаки (вкус, запах, хруст, зараженность вредителями), значения которых были кодированы цифрами. Исходные категориальные признаки были преобразованы в бинарные, где каждый признак имел 2 состояния (0 – признак отсутствует, 1 - присутствует). В результате в базе данных количество признаков увеличилось с 22 до 26.[1]

Для формирования классификационной системы состояния качества хлеба, необходимо отобрать наиболее информативные признаки. Выявление наиболее информативных признаков осуществлялось в три этапа. На первом этапе использовался корреляционный анализ. На втором этапе формировалась классификационная система признаков методом двухэтапного кластерного анализа, состоящая из категориальных и непрерывных признаков. На третьем этапе строилась дискриминантная функция.

Метод двухэтапного кластерного анализа (TwoStepCluster) позволяет кластеризовать различные группы по отдельности, а после этого объединять полученные результаты в конечную структуру кластеров. Для измерения расстояния между объектами используется Евклидова метрика:

,                                         (1)

где  - расстояние между объектом k и l, а - это j-е свойства объектов соответственно k и l. Число кластеров в двухэтапном кластером анализе рассчитывается по критерию Акаике (AIC):или информационный критерий Байеса .

Процедуры дискриминантного анализа позволяют не только интерпретировать различия между существующими классами, но и проводить классификацию новых объектов в тех случаях, когда заранее неизвестно, к какому из существующих классов они принадлежат. Каноническая дискриминантная функция вычисляется по формуле:

,                                                  (2)

где a1, a2 – коэффициенты функции, х1, х2  - дискриминантные переменные.

С помощью корреляционного анализа в общей выборке было установлено, что признаки коррелируют на уровне значимости 0,01 с классом качества хлеба. В качестве наиболее информативных были отобраны признаки с коэффициентом корреляции, превышающим 0,7. Для класса 1 был выявлен 1 информативный признак (содержание водорастворимых углеводов), для которого коэффициент корреляции равен 0,823. Для 6 признаков rнаходится в диапазоне 0,512 до 0,604 по модулю, и имеет среднюю тесноту связи с классом качества. Во второй группе специфических признаков не обнаружено, значение rне превышает 0,492, лишь для 2 признаков коэффициент корреляции больше 0,5. В группе 3 специфических признаков также не обнаружено, теснота связи не превышает 0,5. Класс 4 имеет корреляцию с 7 признаками, теснота связи сильная. Для 9 признаков в данной группе коэффициент rнаходится в диапазоне от 0,546 до 0,698, теснота связи средняя.Информативные признаки приведены в таблице 1.

              Таблица 1

Таблица значений показателей наиболее информативных признаков

Показатели

1 класс

2 класс

3 класс

4 класс

Х2

0,576**

0,264**

-0,113

-0,801**

Х3

0,635**

0,187**

-0,154

-0,729**

Х5

-0,564**

-0,375**

0,283**

0,740**

Х12

-0,378**

-0,094**

0,128

0,729**

Х14

0,593**

0,337

-0,307**

0,699**

Х18

0,587**

   0,208**

        -0,205

-0,764**

На основании проведенного корреляционного анализа можно утверждать, что выделение классов 1,2,3 в общей выборке с приемлемой точностью невозможно, из-за отсутствия специфических признаков в классах 2 и 3 и малого их количества в классе. Однако возможно выделение 4 класса. Поэтому на 1 этапе имеет смысл разделить выборку на 2 класса (Iкласс – 1,2,3 класс, II – 4 класс).

По результатам корреляционного анализа была построена иерархическая схема классификации (рис. 1).

 

 

 

 

 


Рис. 1. Иерархическая схема классификации

Была подтверждена предсказанная нами двухкластерная структур данных. К одному классу (класс II)относится хлеб очень плохого качества, к другому (класс I)остальные наблюдения.

Однако разделить класс Iна подклассы 1,2 и 3 не удалось. Объединение наблюдений изданных классов (1,2 и 3) в один кластер происходит из-за отсутствия специфических признаков в данных группы. Добавление в систему классификации признаков, коэффициент корреляции которых меньше 0,7 приводит к размытию классификации и объединению классов в один.

Результаты двухэтапного кластерного анализа представлены в таблице 2.

   Таблица 2

Результат двухэтапного кластерного анализа

Наименование класса

Распределение

 по кластерам

% ошибок

N

%

КластерI

Хлеб разного качества

110

73,3

0

КластерII

Хлеб очень плохого качества

40

26,7

6,7

ИТОГО

150

100,0

6,7

Исследование физико-химическогосостава муки дорогостоящая процедура, поэтому дляопределения качества муки достаточно органолептических (цвет муки Х5, вкус свойственный Х6, вкус кислый Х7, вкус горький Х8, запах свойственный Х9, запах затхлый Х10, запах заплесневелый Х11, наличие хруста Х12) и нескольких физико-химических (влажность муки Х1, титруемая кислотность Х2, массовая доля клейковины Х3, качество клейковины Х4, зараженность вредителями Х13, белизна Х14) показателей. Исключив из классификационной системы признаки, характеризующие физико-химические показатели муки, вновь была проведена классификация, результаты которой совпали с результатами классификации по полной системе признаков.

Таким образом, установлено, что для классификации достаточно наиболее информативных органолептических (цвет муки, наличие хруста) и физико-химических (титруемая кислотность, массовая доля клейковины, белизна) признаков, имеющих значимую корреляцию с классом качества.

На следующем этапе было выполнено разбиение кластераI на подклассы. Данный кластер Iобъединяет 120 анализов. Для данной подвыборки был проведен корреляционный анализ. В классах 1 и 2 кластераIкорреляционный анализ специфических признаков не выявил, лишь два признака класса 1 имеют среднюю тесноту связи с классом качества (>0,5). В классе 2 коэффициент корреляции лежит в диапазоне от 0,240 до 0,426 по модулю. Класс 3 имеет 4 информативных признака, для которых 0,727<r<0,920, теснота связи сильная (превышает значение 0,7).

С помощью двухэтапного кластерного анализа было получено разбиение кластера I: класс 1 (хорошее и очень хорошее качество) – 93 наблюдения (77,5%), класс 2 (плохое качество) – 27 анализов (22,5%). При этом допущено 6 ошибок (4%): хлеб плохого качества был ошибочно отнесен к хорошему классу качества. Результаты двухэтапного кластерного анализа представлены в таблице 3.

Таблица 3

Результат двухэтапного кластерного анализа

Наименование класса

Распределение по кластерам

% ошибок

N

%

Класс 1

Хлеб хорошего и очень хорошего качества

93

77,5

0

Класс 2

Хлеб плохого качества

27

22,5

4

ИТОГО

120

100,0

4

Таким образом, за два этапа был проведен отбор некачественной муки, из которой нецелесообразно выпекать хлеб. Для разделения классов хорошего и очень хорошего качества хлеба с систему классификации были включены показатели качества хлеба (влажность мякишаХ15, кислотность мякиша Х16,пористость мякиша Х17).

Последняяподвыборкаобъединяет 85 наблюдений. Корреляционный анализ выявил в каждом классе 8 информативных признаков, коэффициент корреляции которых лежит в диапазоне от 0,753 до 0,909, теснота связи сильная.

   Таблица 4

Таблица значений показателей наиболее информативных признаков

 для хлеба хорошего качества

Вид показателей

Показатели

1 класс

2 класс

Органолептические

показатели

качества муки

Х1

0,887**

-0,887**

Х2

0,909**

-0,909**

Х3

0,854**

-0,854**

Х4

0,839**

-0,839**

Х14

0,753**

-0,753**

Физико-химические

показатели качества

хлеба

Х15

0,872**

-0,872**

Х16

0,909**

-0,909**

Х17

0,795**

-0,795**

Кластерный анализ выделил 2 класса: 1 класс (хорошее качество) – 49 наблюдений (57,6%), 2 класс (очень хорошее качество) – 36 (42,4%). Ошибок в классификации обнаружено не было.

На третьем этапе классификации по данным кластерного анализа была построена дискриминантная функция наилучшим образом характеризующая различия между классами. Различие классов оценивалось по значимости коэффициента Уилкса (λ). Уравнение дискриминантной функции, разделяющей класса муки очень плохого и разного качества:

D1=-0,933+0,146Х1-1,262Х2+4,809Х9+1,663Х10+1,539Х11-4,293Х12-2,863Х13

Уравнение функции, дискриминирующей объекты хорошего, очень хорошего качества и плохого качества:

D2=-2,948+9,824Х5-2,539Х13

Уравнение дискриминатной функции, разделяющей объекты хорошего и очень хорошего качества:

D3=-81,055+2,321Х1+8,652Х2+0,698Х3+0,092Х4

 

 

 

Вывод:

1.                 Разработана новая классификационная система качества хлебобулочных зелий из пшеничной муки первого сорта. Принято разделить наблюдения на 4 группы: хлеб высшего, хорошего, плохого и очень плохого качества.

2.                 Предложена трехэтапная классификация проб муки, пригодной в хлебопечении, где на первом этапе проводится корреляционный анализ, на втором этапе – двухэтапный кластерный анализ, на третьем – дискриминантный анализ.В рамках кластерного анализа построена иерархическая схема классификации, где на первом этапе выделяются группы I (хлеб разного качества) и II (хлеб очень плохого качества) с точностью 93,3%; на втором этапе – класс 1 (класс плохого качества) и класс 2 (хлеб хорошего качества), точность 96,0%; на третьем  - класс хорошего качества разбивается на классы очень хорошего и хорошего качества. Было выявлено 10 наблюдений (6,7%) случаев гипердиагностики, на первом этапе, хлеб плохого качества был ошибочно отнесен к очень плохому качеству.

 

Литература:

1.                 Битюков, В.К. Итерационный алгоритм диагностики систем, описываемых набором качественных признаков [Текст] /В.К. Битюков, Е.А. Балашова, К.Ю. Сунцов// Системы управления и информационные технологии.- №4.1.- 2008г.- С.134-138.

2.                 Сборник технологических инструкций для производства хлеба и хлебобулочных изделий.[Текст]. – М.: Прейскурантиздат, 1989.-С.495.