Математика / 4

Математика / 4. Прикладная математика

к.т.н. Крючин О.В., д.т.н. проф. Арзамасцев А.А.

Тамбовский государственный университет им. Г.Р. Державина, Россия

Аналитическая модель информационных процессов обучения искусственных нейронных сетей с использованием параллельного вычисления невязки

В работах [1-3] показано, что значение невязки при вычислении выходных значений искусственной нейронной сети (ИНС) определяется по формуле

,	(1)

где — входные значения ИНС, — управляющие параметры (весовые коэффициенты и активационные функции), — выходные значения из обучающей выборки, — число строк в обучающей выборке, а — число выходов сети, при этом требуется мультипликативных и аддитивных операций для вычисления значения по -ой строке. Поэтому для вычисления полной невязки требуется мультипликативных и аддитивных операций. Кроме того, требуется аддитивных операций для организации суммирования, следовательно, общее число мультипликативных операций может быть вычислено во формуле

,	(2)

где , — число мультипликатиыных и аддитивных операций, необходимых для вычисления выходных значений ИНС, а — коэффициент приведения аддитивных операций к мультипликативным.

Для работы параллельного информационного процесса (использующего несколько элементов информационных ресурсов — ИР-элементов, в качестве которых могут выступать узлы вычислительной системы или процессоры вычислительного кластера) обучения ИНС необходимо:

· перед началом обучения разделить обучающую выборку на частей и передать ее на ИР-элементы;

· при каждом вычислении невязки передавать на ИР-элементы вектор весовых коэффициентов и возвращать значение невязки [1].

Для передачи/отправки 1 элемента обучающей выборки требуется 1 мультипликативная и 2 аддитивные операции, таким образом, для передачи на -ый ИР-элемент необходимой ему выборки требуется мультипликативных и аддитивных операций (передаваемая ИР-элементу выборка состоит из элементов), а для передачи на все ИР-элементов — мультипликативных и аддитивных операций [2].

Обозначим количество передаваемых чисел (). Поскольку для разделения выборки на частей необходимо 2 мультипликативные и аддитивных операций, то для выполнения первого пункта на ведущем ИР-элементе выполняется мультипликативных и аддитивных операций, а на неведущем — мультипликативных и аддитивных. Кроме того, неведущий ИР-элемент не может начать получение данных, пока ведущий не отправит их, то есть -ый ИР-элемент () ожидает выполнения ведущим мультипликативных и аддитивных операций. Таким образом, на -ом ИР-элементе () выполняется пустых операций (соответствующих операциям подготовки данных на ведущем ИР-элементе) и операций, время выполнения которых соответствует времени передачи чисел при скорости интерконекта . Следовательно, ведущий ИР-элемент затрачивает мультипликативных операций, а -ый ИР-элемент — [3].

Вычисление значения невязки состоит из нескольких этапов:

· передача на все ИР-элементы значений вектора весовых коэффициентов (размерностью ), для этого на ведущем ИР-элементе требуется мультипликативных и аддитивных операций, а на -ом неведущем — мультипликативных и аддитивных для получения; таким образом, k-ый ИР-элемент выполняет операций ( пустых операций ожидания, операций передачи и операций получения);

· вычисление значения невязки;

· возвращение на ведущий ИР-элемент значений невязки, для этого на -ом неведущем выполняется 1 мультипликативная и аддитивных операции, а на ведущем — мультипликативных и аддитивных для приема и операций ожидания: таким образом, нулевой ИР-элемент выполняет ;

· вычисление ведущим ИР-элементом результата, требуется аддитивных операций и 1 мультипликативная [3].

Количество операций, необходимых для этих этапов, представлены в табл. 1.

Таблица 1. Количество операций, необходимых для вычисления невязки.

Этап	Ведущий ИР-элемент	Неведущий (-ый) ИР-элемент
1
2
3
4

До начала получения ведущим ИР-элементом вычисленных другими ИР-элементами значений невязки ведущий рассылает весовые коэффициенты и вычисляет (совершая операций), а прочие получают значения , вычисляют значения невязки и отправляют результат — первый и второй этапы:


	(3)

Кроме того, необходимо учитывать количество операций на передачу невязки (). Таким образом, ведущий ИР-элемент может начать прием данных с -го после операций. Поскольку получение завершается после того, как значение невязки будет послано самым медленным ИР-элементом, то для параллельного вычисления невязки требуется операций. Исходя из вышесказанного, можно вывести формулу аналитической модели, показывающую эффективность информационного процесса, использующего параллельное вычисление невязки:

	(5)

(последовательный алгоритм выполняет раз по операций для вычисления невязки и других операций, а параллельный раз по операций и операций для подготовки данных), где — количество вычислений невязки, — количество прочих операций алгоритма (не относящихся к вычислению значения невязки).

Литература

1. Крючин О.В. Algorithms of artificial neural network teaching using the parallel target function calculation // Вестник Тамбовского Университета. Серия: Естественные и технические науки, - Т. 17, Вып. 3 – С. 981-985.

2. Oleg V. Kryuchin, Alexander A. Arzamastev, Prof. Dr. Klaus G. Troitzsch (2011): Comparing the efficiency of serial and parallel algorithms for training artificial neural networks using computer clusters, Arbeitsberichte aus dem Fachbereich Informatik, 13/2011, Universität Koblenz-Landau, ISSN (Online) 1864-0850. http://http://www.uni-koblenz.de/~fb4reports/2011/2011_13_Arbeitsberichte.pdf.

3. Крючин, О.В. Сравнение эффективности последовательных и параллельных алгоритмов обучения искусственных нейронных сетей на кластерных вычислительных системах / О.В. Крючин, А.А. Аразмасцев // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. 2010. — Т. 15, Вып. 6 — С. 372-375