Семантическая микроразметка schema.org
С. А. Минашкин РГРТУ
Россия, Рязань
Аннотация
В данной статье описывается сущность и содержание семантической микроразметки schema.org.
Конечная цель функционирования любого веб-сайта – привлечение целевой аудитории, адекватной содержанию ресурса. При поиске информации поисковые машины формируют ответ на запрос пользователя в виде сниппета – служебного блока, содержащего заголовок и уточняющий текст, описывающий тот или иной сайт. Создание сниппета рационально производить с помощью компонентов семантической разметки данных Schema.org.
Ключевые слова: семантическая микроразметка, семантика, поисковые системы.                                                                           
Преамбула
Schema.org – это стандарт семантической разметки данных в сети, объявленный поисковыми системами Google, Bing и Yahoo! летом 2011 года. С 2012 года данный стандарт стал поддерживаться поисковой машиной Яндекс.
Основное назначение семантической разметки – рационализировать интернет, сделав его более понятным, структурированным и облегчить поисковым системам и специальным программам извлечение и обработку информации для удобного её представления в результатах поиска [3].
Целью данной статьи можно считать исследование возможностей реализации разбора HTML страниц средствами C# на основе методологии семантической микроразметки Schema.org..
 

1. Сущность семантической разметки данных Schema.org

Schema.org – это стандарт семантической разметки данных в сети, объявленный поисковыми системами. Согласно данной методологии разметка реализуется непосредственно в HTML-коде страниц с помощью специальных атрибутов, что не требует создания отдельных экспортных файлов [2].

Присутствующие в любом HTML-документе теги формально указывают браузеру, каким образом демонстрировать данные или информацию, заключенные в теги. Необходимо отметить, что кроме функции отображения, HTML-теги не декларируют информацию о смысловом значении их содержимого [1]. Этот факт значительным образом осложняет процесс выдачи наиболее релевантной информации согласно запросу пользователя. Решение данной проблемы возможно с помощью стандарта семантической разметки данных Schema.org, которая реализует общедоступный словарь, с помощью которого возможно производить разметку страницы, так чтобы она была понятна самым распространенным поисковым системам.

 

2. Управление поисковой выдачей с помощью сниппетов семантической разметки Schema.org

В процессе поиска пользователем какой-либо информации, поисковая машина получает запрос и формирует поисковую выдачу, содержащую заголовок и уточняющий текст. Однако не всегда эти данные адекватно отображают суть запроса и основное содержание сайта. Текст, который поисковые машины автоматически генерируют из исходного кода сайта, называется сниппетом.

Сниппет (от английского snippet – отрывок, фрагмент) – это небольшая служебная информация, представленная в текстовом виде. Сниппет  - это, по сути, блок информации для формирования поисковой выдачи, который содержит ключевые слова, однозначно идентифицирующие содержание сайта в понятной для пользователя форме. С помощью данного фрагмента можно оценить содержание веб-страницы без необходимости перехода по ссылке.

Первоначально, поисковые машины формировали сниппеты из тегов description. Однако, с развитием поисковых механизмов, современные алгоритмы способны осуществлять анализ контента самостоятельно и выводить в сниппете информацию непосредственно из содержания, что делает невозможным подмену информации в тэгах description в целях обманного привлечения посетителей на сайт. Таким образом, можно утверждать, что от поискового сниппета во многом зависит посещаемость сайта.

Создание сниппета рационально производить с помощью компонентов семантической разметки данных Schema.org. Стандарт семантической разметки данных Schema.org содержит словарь и микроданные (формат microdata). Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Данные атрибуты позволяют сделать содержимое веб-страниц машиночитаемым, то есть  реализуют возможность автоматического поиска и извлечения необходимых данных [4].

 

 

Выводы

Проведенное в данной статье исследование сущности и содержания семантической микроразметки schema.org позволило сформулировать следующие выводы:

Schema.org – это стандарт семантической разметки данных в сети, объявленный поисковыми системами. Согласно данной методологии разметка реализуется непосредственно в HTML-коде страниц с помощью специальных атрибутов, что не требует создания отдельных экспортных файлов.

В процессе поиска пользователем какой-либо информации, поисковая машина получает запрос и формирует поисковую выдачу, содержащую заголовок и уточняющий текст. Текст, который поисковые машины автоматически генерируют из исходного кода сайта, называется сниппетом. Создание сниппета рационально производить с помощью компонентов семантической разметки данных Schema.org.

Стандарт семантической разметки данных Schema.org содержит словарь и микроданные (формат microdata). Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах.

 

Литература

1.     Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. — The MIT Press, 2012.

2.     Luciano Floridi Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. — 2009. — Т. 6. — № 1. — С. 25 - 37.

3.     Toby Segaran, Colin Evans, Jamie Taylor Programming the Semantic Web. — 2009.

4.     Towards the Semantic Web: Ontology-driven Knowledge Management. — John Wiley & Sons, 2011.