Современные информационные технологии/3.
Программное обеспечение
Буджак О.В.
Національний університет
«Львівська політехніка», Україна
Розроблення
програми для здійснення інформаційного пошуку в сфері кулінарної лексики
Інформаційний
пошук (ІП) — наука про пошук неструктурованої документальної інформації з-поміж
великих баз даних, яка задовольняє інформаційні потреби.[2] Особливо це відноситься
до пошуку інформації в документах, пошук самих документів, добуття метаданих з
документів, пошуку тексту, зображень, відео та звуку у локальних реляційних
базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні
інтранет. Інформаційний пошук — велика міждисциплінарна область науки, яка
стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну,
лінгвістики, семіотики, бібліотечної справи, та статистики.
Завданням
інформаційного пошуку є знаходження відповідних (до пошукового запиту)
інформаційних об’єктів, або документів серед доступного для пошуку матеріалу.
Завдання для інформаційного пошуку задається у вигляді інформаційного запиту,
який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість
пошукових систем орієнтована на роботу з пошуковими термінами — словами або
словосполученнями, які пошукова система розпізнає як одне ціле. Для здійснення
інформаційного пошуку потрібно мати збірку інформаційних об’єктів (бібліотека,
комп’ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для
здійснення інформаційного пошуку користувач (людина або інформаційна система)
формує інформаційний запит. Результатом пошукової роботи є список документів
який укладається згідно з певним принципом. Такий список називають
впорядкованим.
Основна
мета задачі інформаційного пошуку – допомогти користувачу знайти інформацію,
яка йому необхідна. Процес інформаційного пошуку в загальному вигляді включає в
себе послідовність операцій, які направлені на збір, обробку і надання
необхідної інформації зацікавленим особам. Процес інформаційного пошуку
складається з наступних етапів:
·
визначення
(уточнення) інформаційної потреби і формулювання інформаційного запиту,
·
визначення
сукупності можливих інформаційних джерел,
·
вилучення
інформації з виявлених інформаційних джерел,
·
ознайомлення
з отриманою інформацією і оцінювання результатів пошуку.
В
основі розробленої програми лежить інформаційний пошук кулінарних рецептів, що
здійснюється в межах декількох веб-сайтів. Параметрами, які можна задати під
час пошуку, є інгредієнти, тип страви та час приготування страви. Зазначати всі
параметри не обов’язково, що й робить цю програму достатньо гнучкою у
використанні. Слід зазначити, що релевантність (певна змістова відповідність
між запитом і виданою у відповідь на нього інформацією, що встановлюється за
таким формальним ознакам, як збіг або близькість присутніх в них понять) та
пертинентність (суб'єктивно-оцінювана споживачем відповідність змісту
інформації його інтересам) даного інформаційного пошуку є високими, оскільки
він здійснюється лише на базі декількох сайтів з урахуванням їх структурних особливостей (html-розмітки,
поділу на підрозділи, структури рецептів) , а також особливостей подання
інформації на сайті(як типу страви, так і часу її приготування).
Ефективність
інформаційного пошуку визначають показники, які характеризують
знаходження релевантних документів. Вони підрозділяються на семантичні (точність та повнота пошуку, коефіцієнт інформаційного шуму, коефіцієнт втрат тощо) та
техніко-економічні (оперативність
пошуку, вартість та трудоємність пошуку).
Стосовно
ефективності інформаційного пошуку в даній програмі, то точність пошуку (скорочення кількості документів, які треба
переглядати, при збереженні прийнятного значення повноти видачі) забезпечено за
допомогою використання внутрішніх навігаційних систем сайтів, на яких здійснено
пошук, а повнота пошуку (спроможність
інформаційно-пошукової системи відшукувати релевантні документи, корисні для
інформаційної потреби користувача) є достатньою, оскільки при більшості
комбінацій обраних параметрів користувач отримає релевантні рецепти.
Коефіцієнт інформаційного шуму - це кількісна
характеристика інформаційного пошуку, яка визначається шляхом ділення кількості
виданих в результаті виконання пошуку не релевантних документів на загальну
кількість виданих документів (релевантних і не релевантних). Цей коефіцієнт
дуже низький, оскільки близько 95% документів, отриманих в результаті пошуку, є
релевантними.
Пошук вирізняється високою оперативністю, бо здійснюється у
відносно невеликій базі рецептів, трудоємність
невелика а вартість взагалі нульова.
Інформаційна потреба користувача , яка
асоціюється з задачею пошуку необхідного рецепта, транслюється в запит, що надається пошуковому
механізму.
А
Бродер. [1] класифікував запити в відповідності до їх намірів на три наступних
класи:
·
навігаційні
запити. Такі запити мають на меті негайний намір побачити певний сайт,
·
інформаційні
запити. Вони виражають намір одержати деяку інформацію, яка вважається існуючою
на одній або більше веб-сторінках, Метою таких запитів є знайти інформацію, яка
припускається існує в вебі в статичній формі. В подальшому взаємодій ніяких не
передбачається, за винятком читання. Під статичною формою мається на увазі, що
цільовий документ не створюється як відповідь на запит користувача.
·
транзакційні
запити. Ці запити виражають намір виконати якусь веб-опосередковану діяльність
– покупку в інтернет-магазині, завантаження файлів, тощо. [1]
В
даній програмі особливу увагу приділено саме інформаційним запитам, оскільки в
подальшому для користувача передбачено лише перегляд рецептів, які задовольнили
критерії пошуку з можливістю зберегти їх у власну базу даних, а також
роздрукувати необхідні рецепти.
Література:
1. A taxonomy of web search, Andrei Broder, IBM
Research, http://portal.acm.org/citation.cfm?doid=792550.792552, ACM SIGIR
Forum archive, Volume 36 , Issue 2 (Fall 2002), ISSN:0163-5840, Pages: 3 – 10
2. Manning C., Raghavan P., Schütze H.Introduction to
Information Retrieval.— Cambridge University
Press, 2008. — ISBN
0-521-86571-9.
3. Ландэ Д.
В.,Снарский А. А., Безсуднов И. В. Интернетика:
Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. —ISBN
978-5-397-00497-8.