СЕМАНТИЧЕСКАЯ МИКРОРАЗМЕТКА SCHEMA

Семантическая микроразметка schema.org

С. А. Минашкин РГРТУ

Россия, Рязань

Аннотация

В данной статье описывается сущность и содержание семантической микроразметки schema.org.

Конечная цель функционирования любого веб-сайта – привлечение целевой аудитории, адекватной содержанию ресурса. При поиске информации поисковые машины формируют ответ на запрос пользователя в виде сниппета – служебного блока, содержащего заголовок и уточняющий текст, описывающий тот или иной сайт. Создание сниппета рационально производить с помощью компонентов семантической разметки данных Schema.org.

Ключевые слова: семантическая микроразметка, семантика, поисковые системы.

Преамбула

Schema.org – это стандарт семантической разметки данных в сети, объявленный поисковыми системами Google, Bing и Yahoo! летом 2011 года. С 2012 года данный стандарт стал поддерживаться поисковой машиной Яндекс.

Основное назначение семантической разметки – рационализировать интернет, сделав его более понятным, структурированным и облегчить поисковым системам и специальным программам извлечение и обработку информации для удобного её представления в результатах поиска [3].

Целью данной статьи можно считать исследование возможностей реализации разбора HTML страниц средствами C# на основе методологии семантической микроразметки Schema.org..

1. Сущность семантической разметки данных Schema.org

Schema.org – это стандарт семантической разметки данных в сети, объявленный поисковыми системами. Согласно данной методологии разметка реализуется непосредственно в HTML-коде страниц с помощью специальных атрибутов, что не требует создания отдельных экспортных файлов [2].

Присутствующие в любом HTML-документе теги формально указывают браузеру, каким образом демонстрировать данные или информацию, заключенные в теги. Необходимо отметить, что кроме функции отображения, HTML-теги не декларируют информацию о смысловом значении их содержимого [1]. Этот факт значительным образом осложняет процесс выдачи наиболее релевантной информации согласно запросу пользователя. Решение данной проблемы возможно с помощью стандарта семантической разметки данных Schema.org, которая реализует общедоступный словарь, с помощью которого возможно производить разметку страницы, так чтобы она была понятна самым распространенным поисковым системам.

2. Управление поисковой выдачей с помощью сниппетов семантической разметки Schema.org

В процессе поиска пользователем какой-либо информации, поисковая машина получает запрос и формирует поисковую выдачу, содержащую заголовок и уточняющий текст. Однако не всегда эти данные адекватно отображают суть запроса и основное содержание сайта. Текст, который поисковые машины автоматически генерируют из исходного кода сайта, называется сниппетом.

Сниппет (от английского snippet – отрывок, фрагмент) – это небольшая служебная информация, представленная в текстовом виде. Сниппет - это, по сути, блок информации для формирования поисковой выдачи, который содержит ключевые слова, однозначно идентифицирующие содержание сайта в понятной для пользователя форме. С помощью данного фрагмента можно оценить содержание веб-страницы без необходимости перехода по ссылке.

Первоначально, поисковые машины формировали сниппеты из тегов description. Однако, с развитием поисковых механизмов, современные алгоритмы способны осуществлять анализ контента самостоятельно и выводить в сниппете информацию непосредственно из содержания, что делает невозможным подмену информации в тэгах description в целях обманного привлечения посетителей на сайт. Таким образом, можно утверждать, что от поискового сниппета во многом зависит посещаемость сайта.

Создание сниппета рационально производить с помощью компонентов семантической разметки данных Schema.org. Стандарт семантической разметки данных Schema.org содержит словарь и микроданные (формат microdata). Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Данные атрибуты позволяют сделать содержимое веб-страниц машиночитаемым, то есть реализуют возможность автоматического поиска и извлечения необходимых данных [4].

Выводы

Проведенное в данной статье исследование сущности и содержания семантической микроразметки schema.org позволило сформулировать следующие выводы:

В процессе поиска пользователем какой-либо информации, поисковая машина получает запрос и формирует поисковую выдачу, содержащую заголовок и уточняющий текст. Текст, который поисковые машины автоматически генерируют из исходного кода сайта, называется сниппетом. Создание сниппета рационально производить с помощью компонентов семантической разметки данных Schema.org.

Стандарт семантической разметки данных Schema.org содержит словарь и микроданные (формат microdata). Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах.

Литература

1. Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. — The MIT Press, 2012.

2. Luciano Floridi Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. — 2009. — Т. 6. — № 1. — С. 25 - 37.

3. Toby Segaran, Colin Evans, Jamie Taylor Programming the Semantic Web. — 2009.

4. Towards the Semantic Web: Ontology-driven Knowledge Management. — John Wiley & Sons, 2011.