УДК 621.374

 

 

ВОПРОСЫ УсовершенствованиЯ читающего устройства

 

Пинт Э.М., Романенко И.И., Еличев К.А.

 

Аннотация

Разработано читающее устройство. Создана система восприятия печатной информации. Разработана программа для компьютера, реализующая рациональный метод распознания компьютером печатных знаков разных шрифтов и других символов. В статье излагается усовершенствование читающего устройства для надежного распознавания компьютером печатной информации.

Ключевые слова: программа, оператор, печатный знак.

 

 

QUESTIONS OF IMPROVEMENT OF READING STRUCTURE

 

Pint E.M., Romanenko I.I., Elichev K.A.

 

The summary

Reading structure is developed. System of perception of printed information is created. Program for the computer, realizing rational method of recognition by the computer of printed characters of different fonts and other symbols is developed. Improvement of reading structure for reliable recognition by computer of printed information is gived in the article.

Key works: the program, the operator, a matrix, a printed character.

 

Разработка читающего устройства, имеющего высокое быстродействие и обладающего способностью с высокой степенью надежности распознавать печатные знаки различных шрифтов и другие символы, до сих пор остается актуальной задачей.

Это устройство широко может быть использовано на различных предприятиях промышленности, в строительных и транспортных организациях, в библиотеках и т.д. для обработки печатной информации.

Авторами было разработано оригинальное читающее устройство. Оно состоит из фотоэлектронной системы восприятия (считывания) печатных знаков и компьютера, распознающего эти знаки. Фотоэлектронная система воспринимает изображение печатного знака с носителя информации, построчно развертывает его в электрические импульсы, поступающие в определенном порядке в запоминающее устройство компьютера. В запоминающем устройстве будет находиться набор дискретной информации о печатном знаке. Другими словами знак оказывается как бы вписанным в дискретную прямоугольную матрицу, состоящую из ячеек (элементов) запоминающего устройства компьютера. При этом заполненные ячейки матрицы хранят информацию об элементах изображения знака.

В результате анализа выяснилось, что характерными информативными признаками знаков являются направления элементов знака, составляющие для каждого знака определенную специфическую последовательность, получаемую в результате обхода знака по контору относительно определенной концевой точки.

Надо было найти определенную комбинацию направлений, которую необходимо выбрать для распознавания всех печатных знаков разных шрифтов. Причем, при выборе направлений нужно было учитывать не только количество распознаваемых знаков, но и то какие знаки распознаются друг относительно друга, ибо буквы имеют разную вероятность появления в тексте Рi . Для сравнения различных комбинаций направлений между собой была введена величина Ψ, которую назвали нераспознаваемостью:

где bk – количество нераспознаваемых букв для определенной комбинации из «К» направлений.

Было установлено, что для определенных восьми направлений, ориентированных под углом 450 друг относительно друга Ψ = 0, т.е. все идеально напечатанные контуры знаков русского алфавита различных шрифтов распознаются друг относительно друга.

Рассмотрение каждого идеально напечатанного знакового контура с представлением его в виде специфической последовательности номеров направлений, получаемой в порядке обхода контура знака, позволило составить так называемые стандартные виды русского алфавита. Согласно разработанному алгоритму распознания компьютер обходит дискретно представленный в матрице запоминающего устройства знак по так называемым главным направлениям, т.е. по контуру. Так как линии контура знака имеют толщину, которая к тому же непостоянна для разных знаков, необходимо выделять главные направления и совершать обход по ним, не принимая во внимание направления, возникающие от толщины линий, а также от декоративных украшений, дефектов и пр.

Поэтому главное направление выбиралось как направление, имеющее количество ячеек большее или равное весу, а вес (определенное количество ячеек матрицы) должен был быть хотя бы на одну ячейку больше количества ячеек, составляющих толщину линий знака. При обходе по контору встречались случаи, когда выявлялись лишь направления, где количество заполненных ячеек меньше веса (так называемой суммы). Обход тогда совершался в сторону направления, имеющего наибольшую сумму ячеек.

Максимальная толщина линий получается меньше веса. При обходе по контуру линия знака, например, стойка, имеющая толщину в две ячейки обходится по противоположным направлениям два раза, а при большей толщине, ещё большее число раз. Приведение знаков к единственному стандартному виду становится затруднительным. Учитывая выше сказанное, во время обхода по контору производится стирание по толщине, т.е. ликвидация толщины линий знака. К тому же, после того как заполненная ячейка матрицы уже исследована по направлениям и совершается переход на соседнюю ячейку в одном из восьми направлений, исследованная ячейка стирается из памяти (ячейка запоминается только в случае перекрестия), с целью исключения возможности обхода линии в противоположном направлении по только что пройденному пути.

После обхода знака по направлениям контура полученная последовательность направлений упрощается с целью исключения нехарактерных наклонов вертикальных и горизонтальных линий и исключения нехарактерных отклонений наклонных линий. Это упрощение ликвидирует также определенные возможные дефекты в изображении знака.

Упрощенная запись знака по направлениям сравнивается со стандартными видами для его определения. В стандартный вид входят номера главных направлений, а также могут входить номера некоторых сумм, так как эти суммы также являются характерными признаками знака. При сравнении записи знака по направлениям с любым стандартным видом подсчитывается возможное количество несовпадений, а по окончании сравнения со всеми стандартными видами по меньшему количеству несовпадений определяется знак.

Фотоэлектронная система считывания содержит следующие основные элементы: передающую телевизионную трубку, генераторы строчной и кадровой разверток, усилитель, триггер Шмидта, пересчетное устройство, схему совпадений, генератор запуска [1,2].

С помощью фотоэлектронной системы считывания была выбрана оптимальная матрица запоминающего устройства компьютера. На распознаваемость печатных знаков по разработанному методу распознавания  исследовались прямоугольные матрицы, состоящие из разного количества ячеек. Для сравнительной оценки различных матриц определялась нераспознаваемость Ψ, характеризующая нераспознаваемость букв в зависимости от количества ячеек матрицы с учетом вероятности появления букв русского алфавита в тексте Рi :

где bх – количество распознаваемых букв относительно определенной матрицы, состоящей из Х х Х ячеек.

Величина Ψ уменьшалась с ростом Х и при Х > 12 становилась равной нулю, если пренебречь нераспознаваемостью букв «ш» и «щ». Для каждой матрицы составлялись стандартные виды. При переходе от одной матрицы к другой изменялось количество триггеров счетчика импульсов, количество инверторов, входов и выходов дешифратора и схемы совпадений.

Для каждой матрицы оценивалась надежность распознавания печатных знаков. Авторы использовали следующую формулу для оценки надежности распознавания печатных знаков разных шрифтов:

 

где m – число правильно прочитанных знаков, S – число подлежащих различию знаков алфавита, n – число испытаний для каждого знака, Pi – вероятность появления знаков в тексте, r – число правильно распознаваемых знаков для одного смыслового символа.

Чтобы надежность распознавания приблизить к максимальной, была выбрана матрица, состоящая из 31х32 ячеек. Если оптическая система фотоэлектронной системы считывания настроена таким образом, что самые высокие заглавные знаки составляют на экране передающей телевизионной трубки 4,6 мм, и это соответствует оптимальной матрице, состоящей из 31х32 ячеек, то согласно приведенным исследованиям следует отметить следующее:

1.     Из печатных букв и цифр разных шрифтов русского алфавита лишь буква «щ» не распознавалась для каждого шрифта относительно буквы «ш»;

2.     Распознаваемым буквам и цифрам разных шрифтов русского алфавита соответствует 62 стандартных вида, составленных с точки зрения надежного распознавания печатных знаков разных шрифтов;

3.     Толщина линий знака могла изменяться от 0,2 мм до 0,6 мм;

4.     Перекладины, стойки, наклонные линии знака могли изменяться по длине от 4,6 мм до 1 мм;

5.     Расстояние между знаками должно было быть больше 0,2 мм;

6.     Перекладины, стойки, наклонные линии знака по отношению к характеризующим их направлениям и знак в целом по отношению к вертикали могли изменять ориентацию на угол до ± 200 ;

7.     Декоративные украшения, каверны, уменьшающие толщину линий знака до 0,2 мм, не сказывались на распознавании;

8.     Самые высокие заглавные знаки могли смещаться относительно строчки по вертикали на ± 0,2 мм (соответственно строчные знаки могли смещаться больше).

Как известно из математической статистики одной из наиболее часто употребляемых мер разброса некоторой величины Х является стандартное отклонение выборки, определяемое по формуле

 

 

 

 

 

                                            где

 

 

Если значения величины Х расположены близко друг от друга, то они лежат близко и от среднего значения и наоборот.

Стандартное отклонение выборки использовалось для оценки разброса количества несовпадений (х), получаемых от сравнения записей по направлениям знаков определенного смыслового символа, напечатанных в разных источниках и разными шрифтами, со стандартным видом, соответствующим этому смысловому символу.

Например, для правильно распознаваемых букв «в» и «я» разных шрифтов, напечатанных компьютером, в книге, газете, журнале, соответственно было получено: σx=0,55 , σx = , т.е. разброс количеств несовпадений получался незначительным. Аналогично величины σx      получаются малыми и для других букв и цифр разных шрифтов и разной печати. По величине стандартного отклонения выборки можно судить о степени надежного распознавания знаков определенного смыслового символа. Если при анализе распознаваемости каких-либо букв неизвестных (не предусмотренных стандартными видами) печатных шрифтов и разной печати, величины σх  получаются не порядка посчитанных ранее, а больше, т.е. надежность распознавания букв падает, необходимо для уменьшения σx    исправить стандартные виды, соответствующие этим буквам или добавить дополнительные стандартные виды.

Эксперименты, проводимые с помощью созданной фотоэлектронной системы считывания знаков и компьютера, работающего по разработанной программе, реализующей рациональный метод распознавания печатных знаков разных шрифтов и разной печати, позволили выбрать оптимальную матрицу запоминающего устройства компьютера, повысить надежность распознавания компьютером печатных знаков разных шрифтов и разной печати.

 

 

 

 

 

 

Список литературы

 

1.      Пинт Э.М., Романенко И.И., Еличев К.А. «Основные особенности читающей системы». Материали за 8-а международна научна практична конференция «Найновите научни достижения, 2012. Том 32, София «БЯЛ ГРАД-БТ» ООД-88с.,2012.

2.      Пинт Э.М., Романенко И.И., Петровнина И.Н., Еличев К.А. Полный алгоритм рационального метода распознавания компьютером печатных знаков разных шрифтов и других символов. Научно-теоретический журнал Вестник. БГТУ им. В.Г. Шухова, № 1, 2013 год.