Современные информационные технологии/3. Программное обеспечение 

Буджак О.В.

Національний університет «Львівська політехніка», Україна

Розроблення програми для здійснення інформаційного пошуку в сфері кулінарної лексики

Інформаційний пошук (ІП) — наука про пошук неструктурованої документальної інформації з-поміж великих баз даних, яка задовольняє інформаційні потреби.[2] Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет. Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики.

Завданням інформаційного пошуку є знаходження відповідних (до пошукового запиту) інформаційних об’єктів, або документів серед доступного для пошуку матеріалу. Завдання для інформаційного пошуку задається у вигляді інформаційного запиту, який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами — словами або словосполученнями, які пошукова система розпізнає як одне ціле. Для здійснення інформаційного пошуку потрібно мати збірку інформаційних об’єктів (бібліотека, комп’ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для здійснення інформаційного пошуку користувач (людина або інформаційна система) формує інформаційний запит. Результатом пошукової роботи є список документів який укладається згідно з певним принципом. Такий список називають впорядкованим.

Основна мета задачі інформаційного пошуку – допомогти користувачу знайти інформацію, яка йому необхідна. Процес інформаційного пошуку в загальному вигляді включає в себе послідовність операцій, які направлені на збір, обробку і надання необхідної інформації зацікавленим особам. Процес інформаційного пошуку складається з наступних етапів:

·          визначення (уточнення) інформаційної потреби і формулювання інформаційного запиту,

·          визначення сукупності можливих інформаційних джерел,

·          вилучення інформації з виявлених інформаційних джерел,

·          ознайомлення з отриманою інформацією і оцінювання результатів пошуку.

В основі розробленої програми лежить інформаційний пошук кулінарних рецептів, що здійснюється в межах декількох веб-сайтів. Параметрами, які можна задати під час пошуку, є інгредієнти, тип страви та час приготування страви. Зазначати всі параметри не обов’язково, що й робить цю програму достатньо гнучкою у використанні. Слід зазначити, що релевантність (певна змістова відповідність між запитом і виданою у відповідь на нього інформацією, що встановлюється за таким формальним ознакам, як збіг або близькість присутніх в них понять) та пертинентність (суб'єктивно-оцінювана споживачем відповідність змісту інформації його інтересам) даного інформаційного пошуку є високими, оскільки він здійснюється лише на базі декількох сайтів з урахуванням  їх структурних особливостей (html-розмітки, поділу на підрозділи, структури рецептів) , а також особливостей подання інформації на сайті(як типу страви, так і часу її приготування).

Ефективність інформаційного пошуку визначають показники, які характеризують знаходження релевантних документів. Вони підрозділяються на семантичні (точність та повнота пошуку, коефіцієнт інформаційного шуму, коефіцієнт втрат тощо) та техніко-економічні (оперативність пошуку, вартість та трудоємність пошуку).

Стосовно ефективності інформаційного пошуку в даній програмі, то точність пошуку (скорочення кількості документів, які треба переглядати, при збереженні прийнятного значення повноти видачі) забезпечено за допомогою використання внутрішніх навігаційних систем сайтів, на яких здійснено пошук, а повнота пошуку (спроможність інформаційно-пошукової системи відшукувати релевантні документи, корисні для інформаційної потреби користувача) є достатньою, оскільки при більшості комбінацій обраних параметрів користувач отримає релевантні рецепти.

Коефіцієнт інформаційного шуму - це кількісна характеристика інформаційного пошуку, яка визначається шляхом ділення кількості виданих в результаті виконання пошуку не релевантних документів на загальну кількість виданих документів (релевантних і не релевантних). Цей коефіцієнт дуже низький, оскільки близько 95% документів, отриманих в результаті пошуку, є релевантними.

Пошук вирізняється високою оперативністю, бо здійснюється у відносно невеликій базі рецептів, трудоємність невелика а вартість взагалі нульова.

Інформаційна потреба користувача , яка асоціюється з задачею пошуку необхідного рецепта, транслюється в запит, що надається пошуковому механізму.

А Бродер. [1] класифікував запити в відповідності до їх намірів на три наступних класи:

·           навігаційні запити. Такі запити мають на меті негайний намір побачити певний сайт,

·           інформаційні запити. Вони виражають намір одержати деяку інформацію, яка вважається існуючою на одній або більше веб-сторінках, Метою таких запитів є знайти інформацію, яка припускається існує в вебі в статичній формі. В подальшому взаємодій ніяких не передбачається, за винятком читання. Під статичною формою мається на увазі, що цільовий документ не створюється як відповідь на запит користувача.

·           транзакційні запити. Ці запити виражають намір виконати якусь веб-опосередковану діяльність – покупку в інтернет-магазині, завантаження файлів, тощо. [1]

В даній програмі особливу увагу приділено саме інформаційним запитам, оскільки в подальшому для користувача передбачено лише перегляд рецептів, які задовольнили критерії пошуку з можливістю зберегти їх у власну базу даних, а також роздрукувати необхідні рецепти.

 

Література:

1. A taxonomy of web search, Andrei Broder, IBM Research, http://portal.acm.org/citation.cfm?doid=792550.792552, ACM SIGIR Forum archive, Volume 36 , Issue 2 (Fall 2002), ISSN:0163-5840, Pages: 3 – 10

2. Manning C., Raghavan P., Schütze H.Introduction to Information Retrieval.— Cambridge University Press, 2008. — ISBN 0-521-86571-9.

3. Ландэ Д. В.,Снарский А. А., Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. —ISBN 978-5-397-00497-8.