Терехов Владимир Андреевич
Государственный ВУЗ
"Национальный горный университет", Украина
КЛАССИФИКАЦИИ МУЗЫКАЛЬНЫХ ФАЙЛОВ
на основе нейронной сети
ВВЕДЕНИЕ
Музыка
уже давно закрепилась в нашей жизни. Для кого-то это работа, для кого-то –
развлечение, отдых, эмоции; для одних это смысл жизни, для других – простой
звук. Так или иначе мы все слушаем музыку. Каждая музыкальная композиция
достаточно характерна, легко распознается и воспроизводится человеком из
памяти. Большинство из них мы способны группировать по стилю, жанру, наличию
музыкальных инструментов, настроению и т.д. После накопления огромной базы
музыкальных файлов встает вопрос автоматизированной
фильтрации музыки для более быстрого и удобного доступа к ним.
КОДИРОВКА MP3
Если
для человека музыка – это поток звуковых волн, то для программы –
последовательность битов, закодированных в файл по определённому формату. Одним
из самых распространённых в повседневном использовании является формат MP3. В нём используется алгоритм сжатия с потерями,
что позволяет значително снизить размер хранимых данных.
. . . 24 -12 -6 -12 -5 32 -11 12 -22 13 -13 3 -13 -19 30 56 18 -23 0 -27 -1 4 -30 21 -41 40 1 -34 59 -20 1 -6 -38 -7 -20 -27 10 -5 81 23 28 36 -47 19 -45 -9 0 18 64 -70 -70 -45 -117 50 53 48 63 -27 98 32 26 109 -106 -79 19 27 52 36 23 -58 . . .
Закодированный файл
состоит из метадаты (ID3 теги;
опционально) и последовательности фреймов. Каждый фрейм содержит заголовок и
блок данных. Заголовок описывает данные. Не считывая аудиоданные, можно
получить информацию о битрейте, размере, времени аудиозаписи, а также
дополнительные теги (исполнитель, название, альбом, год выпуска, жанр и т.д.). Блок
данных MP3-файла содержит сжатую аудиоинформацию в виде частот и амплитуд [1]. Сам
цифровой звук – это аналоговый звуковой сигнал, представленный посредством
дискретных численных значений его амплитуды (Рис.1).
Рис.1 – Отрезов последовательности значений аплитуды
Чтобы
привести данную последовательность к более привычному виду, отобразим её на
координатной плоскости со значениями амплитуды на оси Y и некоторой временной единицей на оси X (Рис.2).

Рис.2 – Амплитуда колебаний волн
Именно
такую зависимую от времени последовательность значений амплитуд мы и будем
анализировать.
ВИДЫ КЛАССИФИКАЦИИ
Как
было сказано выше, можно классифицировать музыкальные файлы по жанру, ритму,
использованным инструментам и настроению. Но вместо того, чтобы выбрать
какую-то одну, мы отфильтруем имеющуюся базу файлов одновременно по всем
перечисленным классификациям. Это даст нам не только удобное
систематизированное хранение музыки, но и возможность анализа корреляции
различных видов классификаций между собой.
Так
как программа в любом случае точно не знает к какой группе внутри классификации
относится тот или иной файл, её придется направлять (обучать) непосредственно
человеку. На этом этапе возникает проблема объективности оценки. Если с первыми
тремя видами всё достаточно однозначно, то с группировкой по настроению могут
возникнуть отклонения в определениях
группы одной и той же композиции разными людьми. Чтобы минимизировать влияние
таких отклонений, придется высчитывать усредненное значение с учетом
коэффициента погрешности.
Нам
нужно измерить настроение в непрерывном многомерном пространстве, а не в
дискретных категориях. Для этого воспользуемся моделью Valence-Arousal
(Валентность-Бодрость), которую предложил Джеймс Руссель (Рис.3) [2]. Эта
модель обозначается двумя осями:
·
Бодрость,
которая отображает интенсивность музыки (от неактивной до активной)
·
Валентность – оценку
полярности (от несчастливой до счастливой)
Бодрость

Рис.3 – Модель Волентность-Бодрость Русселя
Согласно
приведенной модели, при анализе музыкального файла нам достаточно расчитать
всего 2 коэффициента для определения эмоциональности (настроения) композиции.
Такой подход лишает нас необходимости обучать программу определять точное
соответствие каждому состоянию (18 состояний).
ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ
Группировка
музыкальных файлов по разным признакам относится к задачам классификации, где
образ – поток аудиоданных, а класс – группа классификации. Топология такой сети
характеризуется тем, что количество нейронов в выходном слое, как правило,
равно количеству определяемых классов. Разрабатываемая сеть должна получать на
вход образцы с определением классов, к которым они относится. Обученная сеть
сможет принимать на вход данные без класса, и на основе обработки полученных
данных определять к какому классу относится новый объект.
Обучаться
нейронная сеть будет автоматически, т.е. без учителя, а значит очень важным
фактором, влияющим на точность результатов, является количество данных для
обучения и однозначность характеризации классов указанными образцами.
Повысить
точность разделения на классы поможет применение адаптивно резонансной теории [3]. Её идея заключается
в том, что распознавание образов является результатом нисходящих ожиданий и восходящей
сенсорной информации. Причем нисходяще ожидания принимают форму припоминаемых
прототипов или образцов, которые затем сравниваются с реально наблюдаемыми
свойствами объекта. Это сравнение лежит в основании меры категориальной
принадлежности. Когда разница между ожиданием и наблюдаемым не превышает
определенный порог (бдительность), наблюдаемый объект считается принадлежащим к
определенной категории. Таким образом система предлагает решение проблемы
пластичности/стабильности, то есть проблемы приобретения нового знания без
нарушения уже существующего.
ВЫВОД
Классификация
музыкальных файлов по жанру, ритму, инструментам и настроению поможет
организовать не только домашнюю библиотеку музыки, дополнив всем привычные
разделения по исполнителям и альбомам, но и базу данных музыкальных порталов и
приложений, улучшая качество поиска
музыки, интересующей пользователя, и в перспективе повышая продажи композиций
менее известных авторов. А применение нейронной сети позволит производить
точную классификацию и поддерживать актуальность изученных данных по факту
появления новых музыкальных направлений.
Кроме
того, анализ корреляции перечисленных видов классификации открывает огромный
набор данных для изучения отношения между типами и эмоциональной окраской
музыкальных композиций и применения результатов в сферах психологии и
маркетинга.
ЛИТЕРАТУРА
1.
Радзишевский А.
(2004), Понятно о кодировании аудио
2. J. A. Russell
(1980), A circumspect model of affect Journal of Psychology
and Social Psychology
3. Carpenter, G.A.
& Grossberg, S. (2003), Adaptive Resonance Theory