Терехов Владимир Андреевич

Государственный ВУЗ "Национальный горный университет", Украина

 

КЛАССИФИКАЦИИ МУЗЫКАЛЬНЫХ ФАЙЛОВ

на основе нейронной сети

 

ВВЕДЕНИЕ

 

Музыка уже давно закрепилась в нашей жизни. Для кого-то это работа, для кого-то – развлечение, отдых, эмоции; для одних это смысл жизни, для других – простой звук. Так или иначе мы все слушаем музыку. Каждая музыкальная композиция достаточно характерна, легко распознается и воспроизводится человеком из памяти. Большинство из них мы способны группировать по стилю, жанру, наличию музыкальных инструментов, настроению и т.д. После накопления огромной базы музыкальных файлов встает вопрос  автоматизированной фильтрации музыки для более быстрого и удобного доступа к ним.

КОДИРОВКА MP3

 

Если для человека музыка – это поток звуковых волн, то для программы – последовательность битов, закодированных в файл по определённому формату. Одним из самых распространённых в повседневном использовании является формат MP3. В нём используется алгоритм сжатия с потерями, что позволяет значително снизить размер хранимых данных.

. . . 

                24           -12         -6            -12         -5            32           -11         12           -22         13           -13         3             -13         -19                30           56           18           -23         0             -27         -1            4             -30         21           -41         40           1             -34                59           -20         1             -6            -38         -7            -20         -27         10           -5            81           23           28           36                -47         19           -45         -9            0             18           64           -70         -70         -45         -117       50           53           48                63           -27         98           32           26           109         -106       -79         19           27           52           36           23           -58

. . .

 
Закодированный файл состоит из метадаты (ID3 теги; опционально) и последовательности фреймов. Каждый фрейм содержит заголовок и блок данных. Заголовок описывает данные. Не считывая аудиоданные, можно получить информацию о битрейте, размере, времени аудиозаписи, а также дополнительные теги (исполнитель, название, альбом, год выпуска, жанр и т.д.). Блок данных MP3-файла содержит сжатую аудиоинформацию в виде частот и амплитуд [1]. Сам цифровой звук – это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды (Рис.1).

 

 

 

 

Рис.1 – Отрезов последовательности значений аплитуды

Чтобы привести данную последовательность к более привычному виду, отобразим её на координатной плоскости со значениями амплитуды на оси Y и некоторой временной единицей на оси X (Рис.2).

 

 

 

 

 


Рис.2 – Амплитуда колебаний волн

Именно такую зависимую от времени последовательность значений амплитуд мы и будем анализировать.

ВИДЫ КЛАССИФИКАЦИИ

 

Как было сказано выше, можно классифицировать музыкальные файлы по жанру, ритму, использованным инструментам и настроению. Но вместо того, чтобы выбрать какую-то одну, мы отфильтруем имеющуюся базу файлов одновременно по всем перечисленным классификациям. Это даст нам не только удобное систематизированное хранение музыки, но и возможность анализа корреляции различных видов классификаций между собой.

Так как программа в любом случае точно не знает к какой группе внутри классификации относится тот или иной файл, её придется направлять (обучать) непосредственно человеку. На этом этапе возникает проблема объективности оценки. Если с первыми тремя видами всё достаточно однозначно, то с группировкой по настроению могут возникнуть отклонения  в определениях группы одной и той же композиции разными людьми. Чтобы минимизировать влияние таких отклонений, придется высчитывать усредненное значение с учетом коэффициента погрешности.

Нам нужно измерить настроение в непрерывном многомерном пространстве, а не в дискретных категориях. Для этого воспользуемся моделью Valence-Arousal (Валентность-Бодрость), которую предложил Джеймс Руссель (Рис.3) [2]. Эта модель обозначается двумя осями:

·     Бодрость, которая отображает интенсивность музыки (от неактивной до активной)

·     Валентность – оценку полярности (от несчастливой до счастливой)

Бодрость

 
 

 

 

 

 

 

 


Рис.3 – Модель Волентность-Бодрость Русселя

Согласно приведенной модели, при анализе музыкального файла нам достаточно расчитать всего 2 коэффициента для определения эмоциональности (настроения) композиции. Такой подход лишает нас необходимости обучать программу определять точное соответствие каждому состоянию (18 состояний).

ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ

 

Группировка музыкальных файлов по разным признакам относится к задачам классификации, где образ – поток аудиоданных, а класс – группа классификации. Топология такой сети характеризуется тем, что количество нейронов в выходном слое, как правило, равно количеству определяемых классов. Разрабатываемая сеть должна получать на вход образцы с определением классов, к которым они относится. Обученная сеть сможет принимать на вход данные без класса, и на основе обработки полученных данных определять к какому классу относится новый объект.

Обучаться нейронная сеть будет автоматически, т.е. без учителя, а значит очень важным фактором, влияющим на точность результатов, является количество данных для обучения и однозначность характеризации классов указанными образцами.

Повысить точность разделения на классы поможет применение адаптивно резонансной теории [3]. Её идея заключается в том, что распознавание образов является результатом нисходящих ожиданий и восходящей сенсорной информации. Причем нисходяще ожидания принимают форму припоминаемых прототипов или образцов, которые затем сравниваются с реально наблюдаемыми свойствами объекта. Это сравнение лежит в основании меры категориальной принадлежности. Когда разница между ожиданием и наблюдаемым не превышает определенный порог (бдительность), наблюдаемый объект считается принадлежащим к определенной категории. Таким образом система предлагает решение проблемы пластичности/стабильности, то есть проблемы приобретения нового знания без нарушения уже существующего.

ВЫВОД

 

Классификация музыкальных файлов по жанру, ритму, инструментам и настроению поможет организовать не только домашнюю библиотеку музыки, дополнив всем привычные разделения по исполнителям и альбомам, но и базу данных музыкальных порталов и приложений, улучшая  качество поиска музыки, интересующей пользователя, и в перспективе повышая продажи композиций менее известных авторов. А применение нейронной сети позволит производить точную классификацию и поддерживать актуальность изученных данных по факту появления новых музыкальных направлений.

Кроме того, анализ корреляции перечисленных видов классификации открывает огромный набор данных для изучения отношения между типами и эмоциональной окраской музыкальных композиций и применения результатов в сферах психологии и маркетинга.

ЛИТЕРАТУРА

1.     Радзишевский А. (2004), Понятно о кодировании аудио

2.     J. A. Russell (1980), A circumspect model of affect Journal of Psychology and Social Psychology

3.     Carpenter, G.A. & Grossberg, S. (2003), Adaptive Resonance Theory