Назаренко О.І., Данилов Б.Ю.

Національний авіаційний університет, Україна

Розпізнавання тексту з растрових зображень

Розпізнавання образів або теорія розпізнавання образів це розділ інформатики та суміжних дисциплін, що розвиває основи і методи класифікації та ідентифікації предметів, явищ, процесів, сигналів, ситуацій і т. п. Об'єктів, які характеризуються кінцевим набором деяких властивостей і ознак.

Під розпізнаванням тексту зазвичай розуміють три основних способи.

– Порівняння з заздалегідь підготовленим шаблоном;

– Розпізнавання з використанням критеріїв об'єкта, що розпізнається;

– Розпізнавання за допомогою алгоритмів самонавчання, в тому числі за допомогою нейронних мереж.

Розпізнавання тексту майже завжди йде разом з виявленням тексту на зображенні. Це можна зробити за допомогою медіанного і монохромного фільтрів.

Після попередньої обробки в процесі розпізнавання відбувається сегментація зображення.

Задається середнє значення відстані між двома буквами в слові. Після цього зображення ділиться на рядки шляхом пошуку повних білих смуг. Далі ці смуги діляться на слова шляхом пошуку білих смуг певної ширини. Після всього цього виділені слова передаються на завершальний етап, і вони діляться на літери. Таким чином на виході модуля сегментації можна отримати весь текст представлений зображеннями букв цього тексту.

Безпосередньо перед розпізнаванням зображення нормалізується і приводиться до розмірів шаблонів, підготовлених заздалегідь.

Далі настає сам процес розпізнавання. Це можна зробити за допомогою метрик і за допомогою нейронної мережі.

Перший випадок розпізнавання – за допомогою метрик.

Метрика – деяке умовне значення функції, що визначає положення об'єкта в просторі. Таким чином, якщо два об'єкти розташовані близько один від одного, тобто схожі (наприклад, дві літери А написані різним шрифтом), то метрики для таких об'єктів будуть збігатися або бути гранично схожими. Для розпізнавання в цьому режимі була обрана метрика Хеммінга.

Але, як показала практика, підрахунок однієї лише метрики не дає позитивного результату, так багато літер схожі між собою. наприклад «j» «i», що призводить до помилкового розпізнавання.

В такому випадку можна придумати нові метрики, що дозволяють розмежувати деяку множину букв в окремий клас.

Такі літери як «H» «I» «i» «O» «o» «X» «x» «l» мають суперсиметрію (повністю збігаються зі своїми відображеннями і значущі пікселі розподілені рівномірно по всьому зображенню), тому їх можна винести в окремий клас, що скорочує перебір всіх метрик приблизно в 6 разів.

Також є унікальна буква така як «J», яка знаходиться в своєму класі одна, і значить ідентифікуються однозначно. Далі, для кожного класу вираховується метрика Хеммінга, яка на даному етапі дає кращі показники ніж при прямому застосуванні.

Другий спосіб розпізнавання - за допомогою нейронної мережі.

Принцип роботи нейронної мережі такий, що отримавши на вхідний шар нейронів нове зображення мережа реагує імпульсом того чи іншого нейрона. Заглиблюючись в термінологію мереж можна сказати, що нейрон крім виходу має також безліч входів. Дані входи описують значення пікселя зображення. Тобто, якщо є зображення 16х16, входів у мережі має бути 256.

Кожен вхід сприймається з певним коефіцієнтом і в результаті, по закінченню розпізнавання на кожному нейроні накопичується певний заряд, ніж заряд буде більше той нейрон і випустить імпульс.

Але щоб коефіцієнти входів були правильно налаштовані необхідно спочатку навчити мережу. Цим займається окремий модуль навчання. Даний модуль бере чергове зображення з навчальної вибірки і подає на вхід мережі. Мережа аналізує всі позиції чорних пікселів і вирівнює коефіцієнти мінімізуючи помилку збіги методом градієнта, після чого певному нейрону співставляється дане зображення.

Завдання розпізнавання текстової інформації при переведенні друкованого і рукописного тексту в електронну форму є однією з найважливіших складових будь-якого проекту, що має на меті автоматизацію документообігу або впровадження безпаперових технологій. Разом з тим ця задача є однією з найбільш складних і наукоємних завдань повністю автоматичного аналізу зображень. Навіть людина, що читає рукописний текст, у відриві від контексту, робить в середньому близько 44% помилок. Тим часом, в найбільш відповідальних додатках OCR необхідно забезпечувати більш високу надійність розпізнавання (понад 99%) навіть при поганій якості друку і оцифровки вихідного тексту.

В останні десятиліття, завдяки використанню сучасних досягнень комп'ютерних технологій, були розвинені нові методи обробки зображень і розпізнавання образів, завдяки чому стало можливим створення таких промислових систем розпізнавання друкованого тексту, як наприклад, FineReader, які задовольняють основним вимогам систем автоматизації документообігу. Проте, створення кожного нового додатка в даній області, як і раніше залишається творчим завданням і вимагає додаткових досліджень в зв'язку зі специфічними вимогами з дозволу, швидкодії, надійності розпізнавання і обсягом пам'яті, якими характеризується кожна конкретна задача.

Системи OCR складаються з наступних основних блоків, які передбачають апаратну або програмну реалізацію:

– блок сегментації (локалізації та виділення) елементів тексту;

– блок попередньої обробки зображення;

– блок виділення ознак;

– блок розпізнавання символів;

– блок постобробки результатів розпізнавання.

Ці алгоритмічні блоки відповідають послідовним крокам обробки і аналізу зображень, виконуваних послідовно.

Спочатку здійснюється виділення текстових областей, рядків текстових областей, рядків і розбиття зв'язкових текстових рядків на окремі знакомісця, кожне з яких відповідає одному текстовому символу.

Після розбиття (а іноді до або в процесі розбиття) символи, представлені у

вигляді двовимірних матриць пікселів, піддаються згладжуванню, фільтрації з метою усунення шумів, нормалізації розміру, а також інших перетворень з метою виділення утворюють елементів або чисельних ознак, використовуваних згодом для їх розпізнавання.

Розпізнавання символів відбувається в процесі порівняння виділених характерних ознак з еталонними наборами та структурами ознак, які формувались і запам'ятовуються в процесі навчання системи на еталонних і/або реальних прикладах текстових символів.

На завершальному етапі смислова або контекстна інформація може бути використана як для вирішення невизначеностей, що виникають при розпізнаванні окремих символів, що володіють ідентичними розмірами, так і для коригування помилково рахованих слів і навіть фраз в цілому.