Современные информационные технологии / 3.Программное обеспечение

 

Омельчук С.С.

Хмельницький національний університет

Трансформація визначення та застосування терміну “Великі дані

Стрімке зростання можливостей технічних засобів у сфері інформаційних технологій за останні декілька років та їх масове застосування у всіх сферах людської діяльності призвело до створення надвеликих обсягів даних. Обробка таких масивів даних має на меті одержання нової інформації та нових знань із уже існуючих. Дані опрацьовуються для одержання інформації, якої має бути рівно стільки, скільки потрібно людині для перетворення її в знання. Однак на заваді ефективності такого перетворення стає невідповідність технологічних засобів обробки та накопичених масивів даних у їх первинному вигляді, оскільки різноманітні організації створюють великі обсяги даних, значна частина яких представлена у форматі, що не відповідає традиційному структурованому  формату бази даних, наприклад, відеозаписи, текстові документи, геопросторові дані, фіксовані сигнали стеження за процесами тощо. Усі ці дані можуть зберігатися у різноманітних сховищах, які можуть також бути відокремленими один від одного. Все вказане призводить до потреби визначення суттєво нового підходу до обробки даних.

Термін “Великі дані” ввів у вжиток Кліффорд Лінч, редактор журналу Nature, який у 2008 році у цьому ж журналі проаналізував феномен великих даних та їх значення для науки. Він зібрав матеріали про явище вибухового зростання обсягу і різноманітності даних, а також технологічних перспектив у парадигмі ймовірного переходу від “кількості до якості”.

Незважаючи на те, що термін вводився в академічному середовищі, і перш за все, розбиралася проблема росту і різноманіття наукових даних, починаючи з 2009 року термін широко поширився в діловій пресі, а до 2010 року відносять появу перших продуктів і рішень, що відносяться виключно і безпосередньо до проблемі обробки великих даних. До 2011 року більшість найбільших постачальників інформаційних технологій для організацій у своїх ділових стратегіях використовують поняття про великі даних, у тому числі IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основні аналітики ринку інформаційних технологій присвячують концепції свої дослідження.[1]

У 2011 році Gartner відзначає великі дані як тренд номер два в інформаційно-технологічної інфраструктурі (після віртуалізації і як більш істотний, ніж енергозбереження та моніторинг). Прогнозується, що впровадження технологій великих даних найбільший вплив зробить на інформаційні технології у виробництві, охороні здоров'я, торгівлі, державному управлінні, а також у сферах і галузях, де реєструються індивідуальні переміщення ресурсів.

Відповідно до звіту McKinsey Institute “Великі Дані: новий рубіж для інновацій, конкуренції й продуктивності” ( Big data: The next frontier for innovation, competition and productivity), термін “Великі Дані” стосується наборів даних, розмір яких перевершує можливості типових баз даних (БД) за занесенням, зберіганням, керуванням й аналізом інформації.

Поняття великих даних має на увазі роботу з інформацією надвеликого обсягу й різноманітного складу, досить часто обновлюваної й такої, що перебуває в різних джерелах, з метою збільшення ефективності роботи, створення нових продуктів і підвищення конкурентоспроможності. Консалтингова компанія Forrester дає наступне формулювання: “Великі дані поєднують техніки й технології, які витягають зміст із даних на екстремальній межі практичності”.

При визначенні поняття Big Data говорять про чотири V: Volume, Variety, Velocity і Value (обсяги, варіативності, швидкості й цінності), а саме визначення звучить у такий спосіб: Big Data – це «технології й архітектури нового покоління для економічного добування цінності з різноформатних даних великого обсягу шляхом їхнього швидкого захоплення, обробки й аналізу». [2]  

Крейг Баті, виконавчий директор з маркетингу й директор з технологій Fujitsu Australia, вказував, що бізнес-аналіз є описовим процесом аналізу результатів, досягнутих бізнесом у певний період часу, тоді як швидкість обробки великих даних дозволяє зробити аналіз перспективним, здатним пропонувати бізнесу рекомендації на майбутнє. Технології великих даних дозволяють також аналізувати більше типів даних у порівнянні з інструментами бізнес-аналітики, що дає можливість фокусуватися не тільки на структурованих сховищах.

Метт Слокум з O'Reilly Radar вважає, що, хоча великі дані й бізнес-аналітика мають однакову мету (пошук відповідей на питання), вони відрізняються один від одного за трьома аспектами:

-   великі дані призначені для обробки більших обсягів інформації, ніж бізнес-аналітика, і це відповідає традиційному визначенню більших даних;

-   великі дані призначені для обробки швидко одержуваних і мінливих відомостей, що означає глибоке дослідження й інтерактивність. У деяких випадках результати формуються швидше, ніж завантажується інформація;

-   великі дані призначені для обробки неструктурованих даних, способи використання яких лише досліджуються після того, як було налагоджено їх збір і зберігання, і потрібні алгоритми й можливість діалогу для полегшення пошуку тенденцій, що містяться всередині цих масивів.

Однак робота з великими даними відрізняється від  звичайного процесу бізнес-аналітики, де просте додавання відомих значень приносить результат: наприклад, підсумок додавання даних про оплачені рахунки стає обсягом продажів за рік. При роботі з великими даними результат одержується в процесі їх очищення шляхом послідовного моделювання: спочатку висувається гіпотеза, будується статистична, візуальна або семантична модель, на її підставі перевіряється вірність висунутої гіпотези й потім висувається наступна. Цей процес потребує від дослідника або інтерпретації візуальних значень, або складання інтерактивних запитів на основі знань, або розробки адаптивних алгоритмів “машинного навчання”, здатних одержати шуканий результат. Причому час життя такого алгоритму може бути досить коротким.[3]

Отже, Великі дані (Big Data) в інформаційних технологіях – це серія підходів, інструментів і методів обробки структурованих і неструктурованих даних величезних обсягів і значного різноманіття для отримання результатів, які сприймаються людиною, ефективних в умовах безперервного приросту, розподілу у численних вузлах обчислювальної мережі, що сформувалися наприкінці 2000-х років, альтернативних традиційним системам управління базами даних і рішенням класу Business Intelligence. У дану серію включають засоби масово-паралельної обробки невизначено структурованих даних, насамперед, рішеннями категорії NoSQL, алгоритмами MapReduce, програмними каркасами та бібліотеками проекту Hadoop.

Із викладеного вище можна зробити висновок, що термін “Великі дані” не є сталим поняттям і визначає не лише розмір опрацьовуваних даних, а й технологічні засоби їх обробки, які включають в себе й відповідні інструменти та засоби. Враховуючи тенденції розвитку інформаційних технологій, можна вважати, що вказане поняття визначатиме один із напрямів роботи із сучасними форматами та обсягами даних і буде використовувати в розвитку все нові технологічні можливості.

Література

1.     Н. Б. Шаховська, Ю. Я. Болюбаш Модель великих даних “сутність-характеристика”. Режим доступу: http://ena.lp.edu.ua:8080/bitstream/ntb/29775/1/20_186-196.pdf

2.     А. Найдич Большие данные: насколько они большие? Режим доступу: http://compress.ru/article.aspx?id=23469

3.     http://www.tadviser.ru/index.php/Статья:Большие_данные_(Big_Data)