Суворов К.Б.

Фолксономия как метод социальной классификации веб-ресурсов

В статье делается обзор использования фолксономии в веб-пространстве.  Особое внимание уделено вопросу поиска информации, классифицированной методами фолксономии.

1.Введение

На популярных веб-сервисах вроде Delicious, Flickr или YouTube люди сотрудничают друг с другом, когда создают контент и индексируют документы. Таким образом, потребители информации могут играть активную роль в веб-коммуникации. Конечный потребитель информации может принимать участие в классификации информационных ресурсов, присваивая классифицирующие теги к документам или отменяя уже присвоенные теги, которые, по его мнению, не соответствуют действительному содержанию информационного ресурса. То есть потребитель информации приобретает черты производителя или контроллера качества. Для того чтобы индексировать документ потребитель применяет метод фолксономии, которая представляет собой вид совместной категоризации информации (ссылок, фото, видео клипов и т. п.) посредством произвольно выбираемых меток, называемых тегами. Нет строгих правил индексации, каждый может присвоить тег в виде подходящего для данного информационного ресурса слова. Фолксономия позволяет формализовать неформальные каналы коммуникации. Например, потребителям не обязательно вживую встречаться или переписываться онлайн для обсуждения вопроса классификации данного информационного ресурса. Теперь каждый из них присвоит к информационному ресурсу тег или несколько тегов, которые посчитает приемлемыми.

Например, для следующей картинки (Рис. 1) на Flickr [4] приводятся такие теги: Canon EOS 500 D, Robin, Shipley Country Park, Birds, Erithacus rubecula.

Рис. 1

2. Фолксономия

По данным Bell [1] термин “фолксономия” ввел в употребление Томас Вандер Вал (Thomas Vander Wal) в 2004 году. Образовано от двух слов folk (от английского народный) и  taxonomy (от греческого расположение по порядку + закон). Хотя ссылка на таксономию может привести к заблуждению, так как фолксономия, в отличие от таксономии, не работает с древообразной структурой классификаций определенного набора объектов, а использует лишь множество произвольных тегов. Фолксономия имеет ряд преимуществ: теги подбираются аутентично, то есть сообразно аудитории, работающей с информационным ресурсом; позволяет классифицировать один объект несколькими тегами; теги могут добавляться постоянно, что будет увеличивать релевантность объекта классификации.

Несмотря на все преимущества фолксономии, существует проблема недостаточной точности тегов [2]. На современных ресурсах, позволяющих использовать “народную классификацию”, в роли тегов можно заметить разные формы слова, существительные в единственном и множественном числе, аббревиатуры, слова с опечатками. Также определенная сложность представляется тем, что теги могут быть на разных языках, нет контроля на синонимы и омонимы. Потребители информации находятся в разных контекстах, у каждого свой уровень интерпретации, поэтому отсутствует стандартный уровень индексации. Большинство тегов определяют содержимое документа, но некоторые могут определять формальные стороны документа, например, чем документ является по сути или с помощью чего или кем он был создан. Теги могут давать личную оценку, например “красиво”, могут быть незаконченными выражениями, например  “вокруг”  или планировать действие, например “следует посмотреть”. По мнению Peters [3] не желательно работать с только фолксономией в рамках профессиональной среды, ее методы нужно комбинировать с другими методами индексации.

3. Обработка тегов для поиска информации

У фолксономии есть недостатки при поиске текстовой информации по смыслу. Чтобы решить некоторые из этих проблем, можно принять теги за элементы естественного языка и работать с ними автоматическими методами обработки естественного языка (ОЕЯ) [5]. Данный алгоритм следует шагам ОЕЯ: определение языка, определение слова, определение и исправление ошибок, идентификация именованных объектов, объединение форм слова, объединение синонимов и разделение омонимов (используя тезаурус) и применение иерархических отношений, объединяя фолксономию с какой-либо системой классификации, специфичным для темы текста тезаурусом или онтологией [6]. Можно предлагать пользователям готовые теги на этапе ввода слова для предотвращения возможных опечаток [7].

Как же сортировать результаты теггированных докуметов по релевантности [8]? Существует три аспекта создания критериев релевантности: 1) теги и их распределение, 2) индикаторы взаимодействия, 3) рекомендации пользователей. Обработку тегов можно производить на основе модели векторного пространства, в котором разные теги представляются измерениями, длина измерений определяется, документ представляется векторами и в конечном счете схожесть запросов к документу

 

Список литературы

[1] Bell, Mary Ann, Playing Tag Is Good for You,  MultiMedia & Internet@Schools; Sep/Oct2009, Vol. 16 Issue 5, p40-42, 3p

[2] M. Guy and E. Tonkin, Folksonomies: Tidying up tags? D-Lib Magazine 12(1) (2006). Online: http://www.dlib.org/dlib/january06/guy/01guy.html.

[3] ] I. Peters, Against folksonomies: Indexing blogs and podcasts for corporate knowledge management, in: Preparing for Information 2.0. Online Information 2006. Proceedings, H. Jezzard, ed., Learned Information Europe, London, 2006, pp. 93–97.

[4] http://www.flickr.com/photos/66104887@N06/8457726151/in/explore-2013-02-09

[5] W.G. Stock, Information Retrieval. Informationen suchen und nden [Information Retrieval. Searching and Finding Information], Oldenbourg, München, Wien, 2007.

[6] T. Gruber, Ontology of folksonomy: A mash-up of apples and oranges, in: 1st On-Line Conference on Metadata and Semantics Research (MTSR ’05), 2005. Online: http://tomgruber.org/writing/ontology-of-folksonomy.htm

[7] M.B. MacLaurin, Selection-Based Item Tagging. Patent Application No. US 2007/002871 A1, assignee: Microsoft (led:

Jul. 29, 2005).

[8] D.S. Butterfield et al., Interestingness Ranking of Media Objects. Patent Application No. US 2006/0242139 A1, assignee:Yahoo! (filed: Feb. 8, 2006).