Бісікало О.В., Савєлова
М.В.
Вінницький національний технічний університет
Інтелектуальний пошук графічних файлів
на основі фолксонометричних даних
Ефективний
пошук інформації через мережу Інтернет набуває все більшої актуальності в
сучасних умовах, особливо для категорії даних, що належать до «важковаговиків»
– графічних, аудіо та відео файлів. Порівняно нещодавно
для пошуку мультимедійного контенту почали застосовувати методи фолксономії [1],
що базуються на використанні незалежного і добровільного опису окремих
медіа-ресурсів за допомогою вербальних міток (тегів). Якщо оминути філософські питання
і сконцентруватися на технічних, то популярність фолксономічного підходу викликана, такими перевагами, як:
§
маловитратний спосіб реалізації, пов'язаний з мотиваційним компонентом –
кожний постачальник медіа-ресурсу, який одночасно є і користувачем системи,
зацікавлений у адекватному відображенні власних файлів;
§
інтуїтивно зрозуміле візуальне представлення загальних результатів фолксономії
через розмір шрифтів для зображення слів у хмарі тегів [2];
§
простий та достатньо ефективний метод пошуку на основі перетину або
об’єднання елементів множини тегів (ключових слів).
Проте
переваги фолксономії одночасно є джерелом недоліків цього підходу. Найсуттєвіше
обмеження полягає у прямій залежності релевантності результатів пошуку від достовірності
початкового опису кожного ресурсу підмножиною тегів, який на практиці,
зазвичай, не перевіряється. Окрім цього, вербальний характер тегів тягне за
собою такі відомі проблеми комп’ютерної лінгвістики, як багатозначність слова,
інваріантність смислу природно-мовних конструкцій за морфологічними та
синтаксичними формами тощо [3]. Оскільки всі ці проблеми не становлять
труднощів для людини, то задачею
дослідження будемо вважати побудову концепції інтелектуального пошуку
графічних файлів у репозиторії
мультимедійних даних з підтримкою фолксономії.
Ідея розв’язання
задачі дослідження базується на використанні моделі образного мислення людини [4] з метою розуміння сенсу
природно-мовних конструкцій [5]. Пропонується формалізувати поняття фолксонометричного простору
[6] та побудувати на його основі тезаурус мовних образів (ТМО) як
семантичну мережу (онтологію) множини тегів. За такого підходу підмножина ключових
слів для опису кожного ресурсу отримується автоматично з його назви, а в
результатах пошуку враховуються асоціативні зв’язки синтагматичного типу між мовними образами (МО).
Введемо
поняття фолксонометричних даних як множину МО
,
що породжують теги як вербальні ознаки 4-х можливих концептів
, де N – поняття, O – об’єкт, M – метод, Q’ – якість. Всі теги одного МО
відрізняються спільним коренем слова, що призводить до морфемної класифікації та гніздового принципу організації
ТМО. Під конструкцією мовних образів (КМО) будемо розуміти довільну підмножину упорядкованих пар
МО
, де F – σ-алгебра підмножин з
.
Побудуємо фолксонометричний
простір на основі бінарного нечіткого відношення
, де
– функція належності нечіткого відношення,
що задається як відображення
. Q задане на
універсумі
з метою отримання
чисельної характеристики асоціативного зв’язку між довільною парою МО
. Якщо
– кількість
зафіксованих системою зв’язків між l-м та j-м образами на деякий момент часу,
, а
– кількість
ненульових елементів матриці суміжності
для
, то
, де
– статистична оцінка
математичного сподівання елементів
.
Під фолксонометричним простором з нечіткою мірою сенсу
будемо розуміти трійку
, де
– нечітка міра сенсу, що визначається
на основі таких аксіом:
1.
,
,
.
2.
,
.
3. Якщо
та
, то
(монотонність).
4. Якщо
, де
є монотонною
послідовністю
, то
(неперервність).
5. Якщо
– рахункове сімейство множин з F, що попарно не перетинаються,
тобто
, то
(σ-адитивність).
Такий підхід
дозволяє розглядати фолксонометричний простір з пар МО
та КМО
як топологічний і квазіметричний
[6]. Будемо вважати, що назва графічного файлу складається з кількох слів, тому
маємо зв’язки між сусідніми словами і ключовим словом категорії. З урахуванням
цього обмеження пропонується методика інтелектуального пошуку графічних файлів:
a.
Отримати вихідні дані з мультимедійного репозиторію як відношення
, де атрибути
.
b.
Шляхом виокремлення, сортування та уникнення повторень слів з атрибутів
та
створити відношення
, де
– ідентифікаційний
атрибут відношення для мовних образів репозиторія
.
c.
Експертним шляхом об’єднати слова з відношення
та визначити склад відношення
, заповнюючи при цьому атрибут
для
.
d.
Створити відношення
для фіксації зв’язків
у назвах і
для накопичення їх
сили.
e.
Для кожної пари сусідніх слів та пари слово назви – ключове слово категорії
кожного кортежу з
створювати кортеж у
з посиланням на новий
чи існуючий кортеж у
для відповідної пари
МО. Значення атрибуту
дорівнює кількості
посилань з відношення
.
f.
Вербальний запит розкласти на МО і відібрати всі файли, у назвах яких вони
зустрічаються; упорядкувати список за сумою
для пар МО.
В основу методики
оцінки релевантності результатів пошуку, що вимагає застосування експертних
методів, закладено 3-х рівневий критерій якості окремого результату пошуку –
добре/задовільно/незадовільно. Шляхом перегляду кожного знайденого зображення для
деякого вербального запиту експерт виставляє оцінку якості для стандартного
фолксономічного підходу та інтелектуального пошуку через фолксонометричний простір
. Аналіз релевантності отримуємо на основі порівняння оцінок якості для
двох підходів у графічному вигляді тривимірних діаграм за категоріями певних
вербальних запитів у порядку представлення результатів пошуку.
Отже, розглянуто
концепцію нового методу інтелектуального пошуку графічних файлів у
репозиторії мультимедійних даних, що
базується на введеному понятті фолксонометричних даних і формалізації
фолксонометричного простору. Запропоновано методику технічної реалізації
підходу у системі з підтримкою фолксономії та методику оцінки релевантності
результатів пошуку.
Література:
1.
http://ru.wikipedia.org/wiki/Фолксономия
2.
http://www.metaphor.ru/er/misc/km_taxonomy_folksonomy.xml
3.
Попов Э.В. Общение с ЭВМ
на естественном языке / Попов Э.В. – М.: Наука, 1982. – 360 с.
5.
Бісікало О.В. Концептуальне поєднання понять образного мислення та
мовленнєвої діяльності / О.В. Бісікало // Інформаційні технології та
комп’ютерна інженерія. – 2010. – № 1(17). – С. 72–77.
6.
Бісікало О.В. Когнітивний простір образних конструкцій / О.В. Бісікало // Искусственный интеллект. Интеллектуальные системы (ИИ–2010): материалы Международной научно-технической
конференции
(Кацивели, 20-24 сентября 2010 г.). – Донецк: ИПИИ «Наука і
освіта». – 2010.
– Т.1. – С. 17-21.