Сучасні інформаційні технології\1.
Комп`ютерна інженерія
К.т.н.,
доцент Веселовська Г.В.,
магістр Левінтон
В.Л.
Херсонський національний технічний університет, Україна
Аналіз особливостей предметної
галузі обробки великих
даних у сфері інформаційних рекомендаційних систем
Ключовими проблемами інтелектуального аналізу даних є проблеми роботи з великими
даними (ВД), наділеними властивостями великого обсягу та розмірності,
гетерогенності, складної структури, розміщення в розподілених базах даних (БД).
Структури для подання ВД можуть мати різнорідні типи атрибутів, представляти
природомовні тексти та зображення, містити дані
спеціальних форматів (веб-посилання, адреси
електронної пошти тощо), відображати часові потоки, представлені численними
транзакціями в БД суттєвих обсягів. Характерною ознакою ВД є висока розмірність
простору подання даних, що виявляється у величезній кількості атрибутів, які
можуть бути ієрархічно структурованими. В цілому, ВД
характеризують: об'єм; швидкість приросту; різноманітність шкал і структур подання
компонентів даних; цінністність.
Типовими ВД є: потоки текстових повідомлень у соціальних мережах;
просторово-часові сенсорні дані про довкілля; потоки даних про з'єднання та місцезнаходження
абонентів стільникового зв'язку; серверні дані Інтернет-торгівлі;
дані про фінансові потоки банків із розподіленими офісами тощо.
Основними цілями аналізу ВД є: виявлення залежностей між атрибутами даних; розробка
ефективних методів прогнозування даних. Аналітиків ВД особливо цікавлять
аспекти, методи та результати аналізу ВД, пов'язані з вирішенням великого
різноманіття задач прийняття рішень, для яких будуються прогностичні моделі даних.
Побудова
інформаційних рекомендаційних
систем (ІРС) належить
до тих задач
обробки
ВД,
які є запитуваними в галузі інтелектуальної
обробки даних і машинного навчання. Дані щодо користувачів, на основі яких будуються ІРС, належать до ВД:
якщо початкові дані можуть і не бути великими, то надалі, для пошуку вподобань
користувачів та ефективної роботи ІРС, потрібне залучення ВД із додаткових
джерел (БД IMDb при роботі з фільмами, БД про організації,
пов`язані з користувачами тощо).
Якщо ІРС використовує алгоритми колаборативної фільтрації,
то потрібна інформація про зв'язки користувачів, якій відповідає граф великої
розмірності. За необхідності використання
локального просторового контексту користувача
в деякій ситуації, треба підключати
великі БД
стосовно
сервісів / провайдерів, доступних користувачу в конкретному локальному контексті. Через те, що інтереси
користувача змінюються з
часом, дані про контент, який
цікавить користувача, можуть бути
потоковими. Оскільки ж розвинені РС враховують
контекст споживання того чи іншого контенту, послуги та товару, то потрібна обробка
даних, що описують час, місце, соціальне оточення, емоційний і психічний стан користувача
в момент споживання контенту. Для здобування інтересів
користувача,
активно використовується така
додаткова інформація, як теги, якими
користувач позначає споживаний контент, товари, послуги в інформаційних системах. Аналіз тегів вимагає залучення додаткових джерел інформації для аналізу
семантики (семантичних БД WordNet, дампів категорій Вікіпедії, онтологічних і пошукових компонентів DBpedia тощо).
Вище сказане свідчить, що дані ІРС для побудови та динамічного моніторингу
профілів користувачів мають властивості ВД: інформація про користувачів
витягується з усіх численних доступних джерел (персональних сторінок у
соціальних мережах, історій пошуку на Інтернет-сайтах і придбань в Інтернет-магазинах тощо); для аналізу, залучається
додаткова інформація, що багаторазово перевершує початковий обсяг даних про
користувача; дані є гетерогенними, можуть мати різну достовірність і повноту.
Побудова персоніфікованих ІРС вимагає побудови онтології інтересів її користувачів,
що має здійснюватися автоматично, з урахуванням всієї різноманітності зазначених
інтересів. Оскільки ж інтереси користувачів можуть змінюватися в часі та залежно
від контексту їхнього перебування, то завдання прийняття рішень стає проблемою
аналізу багатовимірних часових рядів. Побудова ІРС на базі алгоритмів колаборативної фільтрації часто вимагає глибокого аналізу
графів зв'язків користувачів.
Висновки: дані, з якими працюють при побудові ІРС, за розмірністю, обсягом,
різноманітністю типів і динамікою в часі мають властивості ВД; алгоритмічні
проблеми інтелектуальної обробки даних при створенні персоніфікованих крос-доменних
контекстно-залежних ІРС мають багато спільного з проблемами інших додатків, де ВД
є джерелом знань; моделі й алгоритми для побудови ІРС можна узагальнювати й
адаптувати для інших класів додатків у галузі ВД; результатом активних робіт щодо
інтелектуальних методів, моделей, алгоритмів і програмних засобів підтримки
процесів обробки ВД стали численні ефективні розробки (програми, інструментальні
засоби декомпозиції даних тощо), але досягнення в інтелектуальному аналізі ВД
потребують подальшого розвитку, зокрема, в напрямку адаптації до конкретних
прикладних сфер людської діяльності.
Література:
1. Маер-Шенбергер
В., Кукьер К. Большие данные: революция, которая
изменит то, как мы живем, работаем и мыслим. ‒
М.: Изд-во "МИФ", 2017. ‒ 240 с.
2. Лбов Г.С. Анализ
данных и знаний:
учебное пособие. ‒ Новосибирск: НГУ, 2016. ‒ 107 с.
3. J. Hopcroft, R. Kannan. Foundations
of Data Science, 2015. ‒ 412 p.