Скачков Д.А.

Кременчугский национальный университет имени Михаила Остроградского, Украина

Требования к математической модели оценки параметров исполняемого кода для управления процессом оптимизации

 

Одно из основных общих требований к модели — «функциональность». Под функциональностью автор подразумевает пригодность модели для достижения поставленной цели. В контексте данной работы модель функциональна, если она обеспечивает адекватную идентификацию текущего состояния моделируемого объекта и отражает динамику его развития.

Очевидно, что функциональность модели не является единственным критерием ее качества. Показателями качества модели являются также либо собственно вероятность ошибки оценки, либо связанные с ней некоторые функции потерь. При этом различают условную вероятность ошибочной оценки, ожидаемую ошибку алгоритма оценки на выборке заданного объема, и асимптотическую ожидаемую ошибку классификации. Функции потерь также разделяют на функцию средних потерь, функцию ожидаемых потерь и эмпирическую функцию средних потерь.

Необходимо отметить, что само понятие «ошибка оценки» предполагает, что существует независимый от алгоритма распознавания способ, позволяющий достоверно дать оценку объекта. Обычно (но не всегда) считается, что таким способом является экспертная оценка. На этой основе может быть сформулирован соответствующий критерий качества алгоритмов распознавания, который можно было бы назвать «степень соответствия экспертным оценкам», или более пространно: «очевидность и естественность результатов автоматизированной классификации для человека-специалиста». Дело в том, что, к сожалению, слишком часто результаты автоматизированной классификации плохо интерпретируются, т.е., проще говоря, малопонятны или совсем непонятны людям, несмотря на то, что при этом они являются правильными с точки зрения определенных формальных критериев.

Алгоритмы распознавания имеют свои «области компетентности», т.е. эффективность их работы в большей или меньшей степени зависит от статистических характеристик входных данных (обучающей выборки), и от того, что априорно известно об этих статистических характеристиках.

Практически во всех случаях предъявляются более или менее жесткие требования и ко времени решения задачи. В ряде случаев быстродействие алгоритма играет очень существенную, если не решающую роль, например, в коммерческих веб-приложениях. С прагматической точки зрения можно считать, что если на реальных данных, которые необходимо обработать, алгоритм работает неприемлемо долго, то можно сделать вывод о том, что он просто практически не работает.

Время решения задачи (при всех прочих равных условиях) определяется не только вычислительной эффективностью алгоритма, но и мощностью вычислительной системы.

Следующим критерием качества модели является ее «логическая сложность». Часто алгоритмы с более высокой достоверностью распознавания являются и более сложными.

Например, такие развитые и качественные с точки зрения высокой достоверности распознавания методы, как комплексные методы: «алгоритмы вычисления оценок» (АВО) и «коллективы решающих правил» (КРП) [1-3] имеют очень высокую сложность. Отсюда следует высокая сложность их программной реализации, а также низкое быстродействие, сложность интерпретации результатов их работы.

Косвенным критерием качества распознающего алгоритма является «наличие коммерческой программной реализации», а также популярность у пользователей соответствующей программной системы.

Естественно, упомянутыми выше критериями качества алгоритмов распознавания их перечень не ограничивается. Учитывая это, автор предлагает ввести понятие «интегральный критерий качества алгоритма оценки». В предварительном плане для количественной оценки интегрального критерия можно предложить метод сведения многокритериальной задачи к однокритериальной, однако более подробное рассмотрение этих вопросов выходит за рамки данной работы.

По-видимому, идеальным, с точки зрения предложенных выше критериев качества, можно считать  безошибочный, быстродействующий и простой алгоритм распознавания, дающий интуитивно-понятные специалистам результаты.

Применяются три основных экспериментальных метода оценки наиболее распространенного критерия качества распознающих алгоритмов, вероятности достоверного распознавания:

                    выборка используется одновременно как обучающая и контрольная;

                    выборка разбивается на две части — обучающую и контрольную;

                    из всей выборки случайным образом извлекается один объект, а по оставшимся синтезируется решающее правило и производится распознавание извлеченного объекта, эта процедура повторяется заданное число раз (например, до полного перебора).

Первый способ дает завышенную оценку качества оценки по сравнению с той же оценкой качества по независимым от обучения данным. Второй способ является самым простым и убедительным. Им широко пользуются, если экспериментальных данных достаточно. В то же время третий способ, называемый также методом скользящего экзамена, является наиболее предпочтительным, так как дает меньшую дисперсию оценки вероятности ошибки. Однако этот метод является и самым трудоемким, так как требует многократного построения правила распознавания.

Агрегируя результаты статистических данных, можно исключить из них функциональные компоненты ядра веб-приложения, опираясь на точку вызова функции и пути исполняемого файла.

На основе вышеизложенного можно сформулировать следующие основные требования к моделям ориентированным на применение в инфраструктуре хостинг-провайдера. Модель должна обеспечивать:

                    Идентификацию характеристик исследуемого объекта по его выходным параметрам (при независимости времени идентификации от объема обучающей выборки).

                    Выработку эффективных управляющих воздействий на сложный объект управления.

                    Накопление информации об объекте управления и повышение степени адекватности модели, в том числе в случае изменения характера взаимосвязей между входными и выходными параметрами (адаптивность).

                    Определение ценности факторов для детерминации состояний СОУ и контролируемое снижение размерности модели при заданных граничных условиях, в том числе избыточности.

Кроме того, модель должна быть математически прозрачной (достаточно простой) и технологичной в программной реализации.

Литература:

1.                 Жуков А.В. Некоторые модели оптимального управления входным потоком заявок в интранет-системах // Материалы 6-й научно-технической конференции «Новые информационные технологии в ЦБП и энергетике».- Петрозаводск, 2004. – С. 87-90.

2.                 Скачков Д.А. Исследование механизмов оптимизации времени отклика веб-приложений. – Наука, техника и образование. – Москва, 2014. – №6. – С.23-25.

3.                 Hein D. Simloid: Evolution of Biped Walking Using Physical Simulation / D. Hein – Berlin, Institute of Informatic, 2007. – 415 p.