Современные информационные технологии
/1. Компьютерная инженерия
К.т.н., доц. Аждер Т.Б.
Московский технологический университет, Россия
Формирование обучающих выборок
Существует два различных
метода обучения – объяснение и обучение на примерах. Первый метод предполагает
существование достаточно простых правил, которые можно изложить так, чтобы,
действуя сообразно этим правилам, каждый раз получать требуемый результат.
Однако во многих случаях «учитель», проводящий обучение, не может
сформулировать правило, по которому он действует, и тогда первый способ
обучения неприменим и обучение проводится на примерах (индуктивно).
Разработка моделей,
методов и алгоритмов, позволяющих получить применимые в будущем правила и
закономерности исходя из имеющихся в наличие прошлых примеров, проводится в рамках работ по
машинному обучению (MachineLearning). Целью такого
обучения является выработка правила классификации (решающего правила),
позволяющего проводить распознавание также хорошо как это делает «учитель». В
отличие от дискриминантного анализа для MachineLearning
нет необходимости в априорных предположениях о законе распределения и форме
взаимосвязи признаков.
Последовательность
примеров с указанием, к какому классу они относятся, называется обучающей
выборкой.
Основным условием
формирования обучающей последовательности является то, что в нее включаются
элементы, которые были случайно и
независимо извлечены из генеральной совокупности.
Любая обучающая выборка
обладает следующими особенностями:
1) обучающая выборка конечного размера
не является полной, т.е. не содержит необходимого количества элементов для
проведения безошибочной классификации;
2) элементы обучающей выборки обычно
имеют произвольное распределение в пространстве признаков и, как следствие,
решающее правило может обладать неодинаковой дискриминирующей способностью и
достоверностью в различных областях изменения M –мерного пространства (M
– количество признаков);
3) обучающие выборки, как правило,
содержат шумовые (неотносящиеся к заданным классам)
элементы и другую противоречивую или ошибочную информацию.
Общей рекомендацией по
выбору размера выборки является необходимость увеличивать объем выборки N для уменьшения соотношений M/N и G/N, где G – количество
классов.
Данные рекомендации не
всегда выполняются при классификации текстовых документов. Это связано с тем,
что размерность задачи очень высока и количество информативных признаков может
достигать десятков тысяч. В то же время увеличение размера обучающей выборки приводит
к вычислительным сложностям, так как для
многих методов классификации затраты на вычисления нелинейно зависят не только
от числа признаков, но и от количества наблюдений. Размер выборки, необходимой
для эффективного обучения классификатора, существенно зависит от внутренней
структуры (расположения наблюдений в многомерном пространстве), равномерности
распределения объектов по классам, способа составления выборки, цели
классификации. В большинстве задач текстовой классификации одной из важнейших
проблем при формировании выборок является поиск компромисса между ее размером,
способным обеспечить заданную точность, и допустимым временем расчета.
Приписывание
пользователем (или экспертом) документа к
тому или иному классу может носить субъективный и дискуссионный
характер. Известная закономерность «garbagein, garbageout» (мусор – на входе, мусор – на выходе) нигде не справедлива в
такой степени, как при обучении классификаторов. Поэтому выборки рекомендуется
составлять из баз данных, которые имеют свои встроенные общепризнанные и
авторитетные рубрикаторы, позволяющие заменить индивидуальное мнение
пользователя о классе документа на совокупное мнение нескольких независимых
экспертов.
Некоторые обучающие
выборки могут содержать только несколько сотен наблюдений, другие – миллионы.
Предсказательная сила многих алгоритмов машинного обучения растет при
увеличении размера обучающих выборок данных. Тем не менее, алгоритмы машинного
обучения, также следуют принципу «мусор на входе — мусор на выходе». Алгоритм
обучающийся на большой коллекции зашумленных или неправильно маркированных
данных не будет работать лучше, чем алгоритм обучающийся на меньшем наборе
данных, которые более адекватны задачам в реальном мире. Поэтому формирование
обучающих выборок имеет принципиально важное значение для эффективности
процесса обучения и успешного решения задач машинного обучения.
Литература
1.
Хайкин С. Нейронные сети. Полный курс: [пер. с англ.
] – 2-e изд. – М.: Вильямс, 2006. – 1104 с.
2.
Галушка В.В., Фатхи В.А. Формирование обучающей выборки при
использовании искусственных нейронных сетей в задачах поиска ошибок баз данных [Электронный
ресурс] // Инженерный вестник Дона. 2013. №2.:
http://www.ivdon.ru/magazine/archive/n2y2013/1597
3.
Круг П.Г. Нейронные сети и нейрокомпьютеры: учеб.
пособие – М.: Изд-во МЭИ, 2002. – 176 с.