Современные
информационные технологии/ 2.
Вычислительная техника и программирование
Пензенский государственный университет архитектуры и
строительства
Пинт Э.М., Романенко И.И., Еличев К.А.
Критерии оценки читающего устройства
Создание рационального читающего
устройства до сих пор остается актуальной проблемой. Читающие устройства могут
быть использованы для обработки статической информации, накапливающейся в
промышленности, транспорте, при строительстве объектов, во время инженерных
разработок и т.д. Авторы разработали оригинальное читающее печатные знаки
разных шрифтов устройство. Целью настоящей работы является рассмотрение
критериев оценки этого читающего устройства. Устройство состоит из системы
считывания и компьютера.
С помощью системы считывания изображение
печатного знака воспринимается с носителя информации, преобразуется в
прямоугольные электрические импульсы, поступающие в определенном порядке в
память компьютера. Изображение знака оказывается вписанным в дискретную
прямоугольную матрицу, состоящую из ячеек памяти компьютера. Заполненной ячейке
матрицы соответствует элемент изображения знака.
Для компьютера была разработана программа,
реализующая оригинальный метод распознавания печатных знаков разных шрифтов
[1]. Согласно этому методу компьютер, начиная с концевой точки, обходит
дискретно представленный в матрице печатный знак по так называемым главным
направлениям, образуемым элементами контура знака. Были выбраны восемь главных
направлений, расположенных по окружности под углом 450 и имеющих определенный
номер. Главное направление должно содержать количество заполненных ячеек
матрицы больше чем количество заполненных ячеек, составляющих толщину линий
знака. После обхода знака по контуру образуется кодовая запись знака в виде
последовательности номеров главных направлений. При обходе по контуру дискретно
представленный в матрице знак масштабно преобразуется, ликвидируются
нехарактерные отклонения основных элементов контура знака, дефекты изображения.
Для каждого печатного знака определенного смыслового символа был составлен
стандартный вид, который определялся после обхода по контуру идеально
напечатанного знака. В конце программы кодовая запись знака, состоящая из
последовательности номеров главных направлений по определенной методике
сравнивается с последовательностями номеров главных направлений стандартных
видов и по меньшему количеству не совпавших номеров определяется тип печатного
знака [2].
Разработанное читающее устройства обладает
достаточно простой конструкцией и требует от компьютера сравнительно небольшого
количества операций для распознавания одного печатного знака.
Остановимся на выборе количества ячеек
матрицы запоминающего устройства компьютера. На распознаваемость печатных
знаков по разработанному методу распознавания исследовались прямоугольные
матрицы, состоящие из разного количества ячеек. Для каждой матрицы
подсчитывались распознаваемые печатные знаки разных шрифтов русского алфавита.
Для сравнительной оценки различных матриц была введена величина Ψ,
характеризующая нераспознаваемость букв в зависимости от количества ячеек
матрицы с учетом вероятности появления букв русского алфавита в тексте Pi :
![]()
где bх – количество распознаваемых букв относительно
определенной матрицы, состоящей из Х × Х ячеек. На основании
экспериментальных данных был построен график Ψ = f (Х), где Х – количество ячеек столбца или ряда
прямоугольной матрицы. Величина Ψ уменьшалась с ростом Х и при Х>12
становилась равной нулю. Для каждой матрицы составлялись стандартные виды. Были
построены графики
, где n – количество распознаваемых печатных знаков для
определенной матрицы, а m –
соответствующее печатным знака количество стандартных видов. Величина
уменьшалась с
ростом Х.
Для восприятия печатных знаков изначально
была выбрана матрица, состоящая из 25 × 25 ячеек, так как для нее все
печатные знаки разных шрифтов распознавались (Ψ = 0, если пренебречь нераспознаваемостью
букв «ш» и «щ» друг относительно друга), и количество стандартных видов
печатных знаков для этой матрицы оказалось малым. Однако затем использовалась
матрица, состоящая из 31 × 31 ячеек, чтобы увеличить надежность
распознавания печатных знаков. Как известно, качество распознавания читающим
устройством печатных знаков определяется надежностью распознавания знаков,
которая выражается как отношение числа правильно прочитанных знаков к числу
предъявляемых устройству знаков:
![]()
где m – число правильно прочитанных знаков; S – число подлежащих различию знаков алфавита; n – число испытаний для каждого знака. Причем
![]()
где Pmax – максимальная надежность распознавания знаков.
Однако, при таком определении надежности
распознавания не учитываются вероятности появления знаков в тексте Pi, величина которых находится в пределах от 0,1102 до
0,000037, а сумма составляет:
,
где k – число знаков
алфавита.
Авторы посчитали что наиболее целесообразно
использовать следующую формулу для оценки надежности распознавания печатных
знаков, которая учитывает вероятность их появления в тексте:
![]()
где r – число
правильно распознаваемых знаков для одного смыслового символа. Максимальная надежность
распознавания знаков составила Pmax
= 0,98 , что определялось нераспознаваемостью букв «ш» и «щ» друг относительно
друга. Все остальные знаки алфавита распознавались по предложенному методу
распознавания. Надежность распознавания зависела от качества печатания текста и
оказывалась меньше максимальной в связи с непропечатанными полностью знаками и размывами линий знаков.
Чтобы надежность распознавания приблизить
к максимальной вместо матрицы запоминающего устройства компьютера, состоящий из
25 × 25 ячеек, как уже отмечалось выше, была выбрана матрица, состоящая
из 31 × 31 ячеек; при этом количество стандартных видов для русского
алфавита было увеличено с 57 до 62.
Литература
1.
Пинт Э.М., Пугач М.А.,
Власов А.А., Козицын В.С. Алгоритм рационального метода распознавания
компьютером печатных знаков разных шрифтов. Сборник материалов Международной
научной конференции по естественнонаучным и техническим дисциплинам. –
Йошкар-Ола: Изд. МарГТУ, 2010.
2.
Пинт Э.М., Петровнина
И.Н., Романенко И.И., Еличев К.А. Заключительный алгоритм рационального метода
распознавания компьютером печатных знаков разных шрифтов и распространение
метода на образы, связанные с автоматизацией работы дорожных машин и
автомобилей. Материалы IV Международной
научно-практической конференции "Перспективные направления развития
автотранспортного комплекса." –
Пенза: Изд. ПГУАС, 2011.