Старший преподаватель, Ермаков Александр Александрович

Д.Т.Н., професор Падалко Сергей Николаевич

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский авиационный институт (национальный исследовательский университет)»

Россия, Москва

МАТЕМАТИЧНІ МЕТОДИ У СФЕРІ МІКРОБІОЛОГІЧНОЇ БЕЗПЕКИ: ВИЯВЛЕННЯ І ЛОКАЛІЗАЦІЯ МІКРООРГАНІЗМІВ НА ЗОБРАЖЕННІ

 

Завдання виявлення мікроорганізмів на зображенні є більш ніж простим для людського зору, проте при спробі побудови автоматичної системи виявлення мікроорганізмів доводиться зіткнутися з багатьма складнощами.

Існуючі алгоритми виявлення мікроорганізмів можна розбити на дві широкі категорії. До першої категорії належать методи, що відштовхуються від досвіду людини в розпізнаванні мікроорганізмів і що роблять спробу формалізувати і алгоритмізувати цей досвід, побудувавши на його основі математичну модель розпізнавання. Друга категорія спирається на інструментарій розпізнавання образів, розглядаючи завдання виявлення мікроорганізмів, як окремий випадок завдання розпізнавання.

Ключові слова: Математична модель, біологічна безпека, штучна нейронна мережа, медичний контроль.

1.1 Методи першої категорії - Емпіричне розпізнавання

Людський мозок справляється із завданням виявлення мікроорганізмів на зображеннях більш ніж успішно. Природно було б спробувати визначити і використати принципи, якими керується мозок при рішенні задачі розпізнавання. Серед методів, що роблять таку спробу, можна виділити два напрями: методи розпізнавання "згори-вниз" засновані на знаннях і методи розпізнавання "знизу-вгору" засновані на особливостях.

Розпізнавання "згори-вниз" означає побудову деякого набору правил, яким повинен відповідати фрагмент зображення, для того, щоб бути визнаним мікроорганізмом. Цей набір правил є спробою формалізувати емпіричні знання про те, як саме виглядає мікроорганізм на зображеннях і чим керується людина при ухваленні рішення мікроорганізм він бачить або ні. Досить легко побудувати набір простих і очевидних властивостей зображення мікроорганізму.

Спираючись на ці властивості, можна побудувати алгоритм перевіряючий їх наявність на фрагменті зображення. До цього ж сімейства методик можна також віднести розпізнавання за допомогою шаблонів, заданих розробником. Виявлення мікроорганізмів за допомогою шаблону полягає в перевірці кожної з областей зображення на відповідність заданому шаблону.

Розпізнавання "знизу-вгору" використовує інваріантні властивості зображень мікроорганізмів, спираючись на припущення, що раз людина може без зусиль розпізнати мікроорганізм на зображенні незалежно від його орієнтації, умов освітлення і індивідуальних особливостей, то повинні існувати деякі ознаки присутності мікроорганізмів на зображень, інваріантні відносно умов зйомки. Алгоритм роботи методів розпізнавання "знизу-вгору" може бути коротко описаний таким чином:

 

1. Виявлення елементів і особливостей (features), які характерні для зображення мікроорганізму;

2. Аналіз виявлених особливостей, винесення ухвали про кількість і розташування мікроорганізмів;

1.1.1 Виявлення елементів і особливостей (features), які характерні для зображення мікроорганізмів.

Краї (edges) - різкі переходи яскравості. Краї зазвичай відповідають межам об'єктів на зображенні. Ця властивість також використовується у ряді робіт, які розглядають краї на зображенні як ознаки потенційної присутності мікроорганізмів.

Яскравість. Області зображення, що відповідають мікроорганізмам, частенько темніше, ніж поживне середовище, що оточує їх. Скориставшись цим спостереженням, ряд дослідників використовує алгоритми виявлення і підкреслення областей локальних мінімумів яскравості, розглядаючи їх як потенційні мікроорганізми. У деяких роботах робиться спроба використати певні схеми взаємовідносин яскравостей, характерних для деяких мікроорганізмів.

Колір- попри те, що яскравість зазвичай є основним джерелом інформації у багатьох завданнях машинного зору, колір (завдяки додатковій інформації про відтінок об'єкту) є потужнішим засобом розпізнавання і розрізнення об'єктів на зображенні. Як показали експерименти, колір різних мікроорганізмів займає досить невелику обмежену підобласть колірного простору, навіть при розгляді кольорів мікроорганізмів різних класів.

Характерна форма мікроорганізмів. Виходячи з того, що процесам розпізнавання візуальних образів високого рівня в мозку передує деяка низькорівнева організація візуальної інформації, було запропоновано декілька операторів, що підкреслюють області зображення, властивостями, що володіють, характерними для мікроорганізмів. Такими, наприклад, як симетричність. Результатом застосування таких операторів є набір точок на зображенні, що з високою вірогідністю відносяться до мікроорганізмів.

Інший близький варіант розпізнавання - використання жорстких або таких, що деформуються шаблонів для виявлення мікроорганізмів.

1.1.2 Аналіз виявлених особливостей, винесення ухвали про кількість і розташування.

         Після того, як на зображенні виділені області, що мають властивості, характерні для мікроорганізмів, робиться їх комплексна перевірка для виявлення областей, що дійсно є мікроорганізмами. Суть цієї перевірки залежить від характеру використовуваних ознак, а також від обраної дослідниками стратегії.

Наприклад, якщо ознаками виступають потенційні риси мікроорганізмів, виявлені за допомогою аналізу карти країв, то перевіркою буде аналіз їх взаємного розташування з метою визначення, чи можуть вони утворювати колонії мікроорганізмів. Якщо використовується також розпізнавання за кольором, то може бути додана додаткова умова, що розглядатися в якості потенційних мікроорганізмів будуть тільки області близькі за кольором до відтінку мікроорганізмів.

Перевірка співвідношення виявлених ознак мікроорганізмів може бути заснована на: деякому емпіричному алгоритмі [1], статистиці взаємного розташування ознак, зібраній по зображеннях мікроорганізмів [3], моделюванні процесів, що відбуваються в людському мозку при розпізнаванні візуальних образів [2], застосуванні жорстких або таких, що деформуються шаблонів [4] і так далі

1.2 Методи другої категорії, моделювання зображення мікроорганізмів

Друге сімейство методів підходить до проблеми з іншого боку, і, не намагаючись в явному виді формалізувати процеси, що відбуваються в людському мозку, намагаються виявити закономірності і властивості зображення мікроорганізмів неявно, застосовуючи методи математичної статистики і машинного навчання. Методи цієї категорії спираються на інструментарій розпізнавання образів, розглядаючи завдання виявлення мікроорганізмів, як окремий випадок завдання розпізнавання.

Зображенню (чи його фрагменту) ставиться у відповідність деяким чином вичислений вектор ознак, який використовується для класифікації зображень на два класи, - мікроорганізм/не мікроорганізм. Найпоширеніший спосіб отримання вектору ознак це використання самого зображення : кожен піксель стає компонентом вектору, перетворюючи чорно-біле зображення n×m на вектор простору Rn×m. Недоліком такого представлення є надзвичайно висока розмірність простору ознак.

Гідність полягає тому, що використовуючи усе зображення цілком замість вичислених на його основі характеристик, з усієї процедури побудови класифікатора (включаючи виділення стійких ознак для розпізнавання) повністю виключається участь людини, що потенційно знижує вірогідність помилки побудови неправильної моделі зображення мікроорганізму внаслідок невірних рішень і помилок розробника.

Зазвичай пошук мікроорганізмів на зображеннях за допомогою методів, заснованих на побудові математичної моделі зображення мікроорганізмів, полягає в повному переборі усіх прямокутних фрагментів зображення всіляких розмірів і проведення перевірки кожного з фрагментів на наявність мікроорганізмів. Оскільки схема повного перебору має такі безумовні недоліки, як надмірність і велика обчислювальна складність, авторами застосовуються різні методи скорочення кількості даних фрагментів.

1.2.1 Моделювання класу зображень за допомогою Методу Головних Компонент (Principal Components Analysis, PCA)

Метод головних компонент [5] застосовується для зниження розмірності простору ознак, не призводячи до істотної втрати інформативності тренувального набору об'єктів. Застосування методу головних компонент до набору векторів лінійного простору Rn, дозволяє перейти до такого базису простору, що основна дисперсія набору буде спрямована уздовж декількох перших осей базису, що називаються головними осями (чи головними компонентами).

Таким чином, основна мінливість векторів тренувального набору представляється декількома головними компонентами, і з'являється можливість, відкинувши ті, що залишилися (менш істотні), перейти до простору істотно меншої розмірності. Натягнутий на отримані таким чином головні осі підпростір розмірності m << n є оптимальним серед усіх просторів розмірності m в тому сенсі, що якнайкраще (з найменшою помилкою) описує тренувальний набір зображень.

У додатку до завдання виявлення мікроорганізмів, МГК зазвичай застосовується таким чином. Після обчислення головних осей тренувального набору зображень мікроорганізмів, вектор ознак тестового зображення проектується на підпростір, утворений головними осями. Обчислюються дві величини: відстань від проекції тестового вектору до середнього вектору тренувального набору - Distance in Feature Space (DIFS), і відстань від тестового вектору до його проекції в підпростір головних компонент - Distance From Feature Space (DFFS).

Виходячи з цих відстаней виноситься ухвала про приналежність тестового зображення класу зображень мікроорганізмів [6].

1.2.2 Моделювання класу зображень за допомогою Факторного аналізу (Factor Analysis, FA)

Факторний аналіз (ФА)[8], як і багато методів аналізу багатовимірних даних, спирається на гіпотезу про те, що спостережувані змінні є непрямими проявами відносно невеликого числа деяких прихованих чинників. ФА, таким чином, це сукупність моделей і методів орієнтованих на виявлення і аналіз прихованих (латентних) залежностей між спостережуваними змінними. У контексті завдань розпізнавання, спостережуваними змінними зазвичай є ознаки об'єктів.

Факторний аналіз можна розглядати як узагальнення методу головних компонент.

Мета ФА в контексті завдання виявлення мікроорганізмів - отримати модель зображення мікроорганізмів (з осяжним числом параметрів), за допомогою якої можна провести оцінку близькості тестового зображення до зображення мікроорганізмів [9].

         1.2.3 Проблема збору контрприкладів для тренування класифікаторів

Методи, використовуючи МГК і ФА вимагають для тренування класифікатора тільки набору позитивних випадків розпізнавання (зображень мікроорганізмів), їм не потрібно контрприклади (зображення без мікроорганізмів). Методи описані нижче мають потребу також і в контрприкладах, що піднімає ще одну проблему - як знайти репрезентативний набір зображень "не мікроорганізму" для успішного тренування класифікатора?

У роботі [10] запропоновано вирішення цієї проблеми методом само налаштування - він полягає в поступовому формуванні набору контрприкладів, за результатами тестів, що проводяться. На першому кроці для тренування класифікатора використовується невеликого тренувального набору зображень-контрприкладів Потім робиться тестування на деякій випадковій вибірці з бази цих зображень. Усі зображення, в ході тесту помилково розпізнані, як мікроорганізми додаються в набір контрприкладів і тренування повторюється.

1.2.4 Моделювання розподілу векторів мікроорганізмів за допомогою суміші багатовимірних нормальних розподілів (mixture of Gaussians)

МГК і Факторний Аналіз є потужними і зручними способами отримання підпростору для ефективного представлення класу об'єктів у багатьох випадках, проте вони не обов'язково є оптимальними інструментами для моделювання різноманіття зображень мікроорганізмів. Спроба побудувати модель, що складається з декількох кластерів зображень мікроорганізмів і "не мікроорганізмів", змоделювавши кожного з них за допомогою багатовимірної нормальної щільності розподілу була зроблена в [10].

Розглядаючи чорно-білі зображення розміром 19x19 пікселів як вектору в 361-мірному просторі, був знайдений набір кластерів, утворених зображеннями мікроорганізмів і "не мікроорганізмів". Відстані до цих кластерів передавалися нейронній мережі (багатошаровому персептрону), що виносило рішення про наявність мікроорганізму на зображенні.

1.2.5 Лінійний Аналіз (Linear Discriminant Analysis, LDA) Дискримінанта

Лінійний Аналіз Дискримінанта [7], на відміну від МГК і ФА не ставить своєю метою знайти підпростір меншої розмірності, що якнайкраще описує набір тренувальних зображень. Його завдання - знайти проекцію в простір, в якому різниця між різним класами об'єктів максимальна. Ця вимога формулюється як отримання максимально компактних кластерів, що відповідають різним класам, видалених на максимально можливу відстань.

За допомогою ЛДА вдається отримати підпростір невеликої розмірності, в якому кластери зображень мікроорганізмів і "не мікроорганізмів" перетинаються мінімально. Робити класифікацію в такому просторі значно простіше [9].

1.2.6 Метод Опорних Векторів (Support Vector Machines, SVM)

         Мета тренування більшості класифікаторів - мінімізувати помилку класифікації на тренувальному наборі (що називається емпіричним ризиком). На відміну від них, за допомогою методу опорних векторів [11] можна побудувати класифікатор мінімізує верхню оцінку очікуваної помилки класифікації (у тому числі і для невідомих об'єктів, що не входили в тренувальний набір).

Застосування методу опорних векторів до завдання виявлення мікроорганізмів полягає в пошуку гіперплощини в ознаковом просторі, відділяючий клас зображень мікроорганізмів від зображень "не мікроорганізмів".

Нагода лінійного розділення таких складних класів, як зображення мікроорганізмів і "не мікроорганізмів" трапляється маловірогідною. Проте, класифікація за допомогою опорних векторів дозволяє використати апарат ядерних функцій [12] для неявного проектування векторів-ознак в простір потенційно набагато більш високої розмірності (ще вище, ніж простір зображень!), в якому класи можуть виявитися лінійно разделіми.

Неявне проектування за допомогою ядерних функцій не призводить до ускладнення обчислень, що дозволяє успішно використати лінійний класифікатор для лінійно нероздільних класів [13].

1.3 Достоїнства і недоліки методів першої і другої категорії

Основа методів першої категорії - емпірика, є одночасно їх сильною і слабкою стороною. Велика мінливість об'єкту розпізнавання, залежність виду мікроорганізмів на зображенні від умов зйомки і освітлення дозволяють без коливань віднести виявлення мікроорганізмів на зображенні до завдань високої складності. Застосування емпіричних правил дозволяє побудувати деяку модель зображення мікроорганізмів і звести завдання до виконання деякої кількості відносно простих перевірок.

Проте, незважаючи на безумовно розумну посилку - спробувати використати і повторити вже успішно функціонуючий інструмент розпізнавання - людський зір, методи першої категорії доки далекі по ефективності від свого прообразу, оскільки дослідники, що вирішили обрати цей шлях, стикаються з рядом серйозних труднощів.

По-перше, процеси, що відбуваються в мозку під час рішення задачі розпізнавання зображень вивчені далеко не повністю, і той набір емпіричних знань про мікроорганізмів, які доступні дослідникам на "свідомому рівні", далеко не вичерпує інструментарій, використовуваний мозком "підсвідомо".

По-друге, важко ефективно перевести неформальний людський досвід і знання в набір формальних правил, оскільки занадто жорсткі рамки правил приведуть до того, що у ряді випадків мікроорганізми не будуть виявлені, і навпроти, занадто загальні правила приведуть до великої кількості випадків неправдивого виявлення.

Можна перерахувати наступні проблеми, загальні для методів другої категорії :

1. Залежність від орієнтації і масштабу мікроорганізмів. Більшість класифікаторів не є інваріантними до повороту мікроорганізмів в площині зображення і зміни його розміру. Тому для успішного виявлення мікроорганізмів, відмінного за розміром або орієнтацією від мікроорганізмів в тренувальному наборі, потрібно додаткову обробку вхідного зображення (масштабування, поворот).

Проблему зміни масштабу вирішують, зазвичай, шляхом повного перебору усіх можливих прямокутних фрагментів зображення усіх можливих розмірів. Спроба ж розглядати ще і усі можливі кути повороту мікроорганізмів в площині зображення приведе до того, що час виконання і без того довгої процедури перебору фрагментів перевищить усі мислимі межі.

Якщо говорити про поворот мікроорганізмів поза площиною зображення, то це є проблемою для багатьох методів з обох категорій, оскільки при значному повороті мікроорганізмів на зображенні змінюється настільки сильно, що багато ознак і правила (задані розробником або отримані неявно) розпізнавання фронтального зображення мікроорганізмів стають абсолютно непридатними.

2. Неявний спосіб визначення ознак для розпізнавання мікроорганізмів таїть в собі потенційну небезпеку: класифікатор, що має недостатньо репрезентативний набір зображень мікроорганізмів, теоретично може виділити вторинні або неправдиві ознаки в якості важливих. Один з наслідків - потенційна залежність від освітлення, яке переважало в тренувальному наборі. У ряді випадків [14] застосовується додаткова попередня обробка зображення для компенсації впливу освітлення.

3. Висока обчислювальна складність. По-перше, самі класифікатори часто включають велику кількість досить складних обчислень; по-друге, повний перебір усіх можливих прямокутних фрагментів зображення сам по собі займає велику кількість часу. Це утрудняє використання деяких методів в системах реального часу.

Порівнювати між собою якість розпізнавання методів різних категорій досить важко, оскільки у більшості випадків, спиратися можна тільки на дані випробувань, що надаються самими авторами, оскільки провести великомасштабне дослідження по реалізації більшості відомих методів і порівняння їх між собою на єдиному наборі зображень не представляється можливим унаслідок неймовірної трудомісткості цього завдання.

На основі інформації, що надається авторами методів, також складно провести коректне порівняння, оскільки перевірка методів часто робиться на різних наборах зображень, з різним формулюванням умов успішного і неуспіху виявлення. До того ж перевірка для багатьох методів першої категорії робилася на значно менших наборах зображень.

Помітна відмінність між першою і другою категорією описаних методів полягає ще і в тому, що емпіричні методи часто досить прості в реалізації (особливо відносно методів другої категорії), і надають можливість гнучкого налаштування під конкретне завдання шляхом модифікації інтуїтивно зрозумілих параметрів. Методи, що спираються на інструментарій розпізнавання образів, вимагають значних зусиль із формування тренувальних наборів зображень і навчання класифікатора. Вплив параметрів, контролюючих класифікатор, на його поведінку часто далеко неочевидно. Проте трудомісткість створення працюючих прототипів методів другої категорії частково компенсується високими заявленими показниками якості розпізнавання на великих колекціях зображень.

Що стосується рекомендацій по вибору методу для вирішення завдання виявлення мікроорганізмів, то можна сказати, що вибирати відповідний метод, виходячи з цифрових показників якості розпізнавання навряд чи доцільно. Швидше, усе залежить від конкретного завдання і умов в яких повинен функціонувати алгоритм, що розробляється.

Побудова універсального методу, що забезпечує високий рівень розпізнавання за відсутності обмежень на початкові зображення нині не представляється можливим, проте для більшості конкретних завдань можна створити методи, що надають достатній рівень розпізнавання.

В якості умов, що впливають на вибір методу рішення задачі, можна перерахувати наступні:

 

- Передбачувана різноманітність мікроорганізмів : обмежений набір мікроорганізмів, обмеження на можливий тип мікроорганізмів, відсутність обмежень;

- Кольорове або чорно-біле зображення;

- Масштаб мікроорганізмів, дозвіл і якість зображення (зашумленность, міра стискування);

- Передбачувана кількість мікроорганізмів, присутніх на зображенні : відомо, приблизно відомо, невідомо;

- Умови освітлення : фіксовані відомі, приблизно відомі, будь-хто;

- Фон: фіксований, контрастний однотонний, слабоконтрастній зашумленний, невідомий.

 

Список літератури:

1)                K. Sobottka and I. Pitas, " A novel method for automatic face segmentation, facial feature extraction and tracking ," Signal Processing: Image Communication, Vol. 12, No. 3, pp. 263-281, June, 1998.

2)                F. Smeraldi, O. Carmona, and J. Big.un, " Saccadic search with Gabor features applied to eye detection and real-time head tracking ," Image Vision Comput. 18, pp. 323-329, 2000.

3)                M. C. Burl and P. Perona, " Recognition of planar object classes ," in IEEE Proc. of Int. Conf. on Computer Vision and Pattern Recognition, 6, 1996.

4)                L. C. De Silva, K. Aizawa, and M. Hatori, " Detection and tracking of facial features by using a facial feature model and deformable circular template," IEICE Trans. Inform. Systems E78-D(9), pp. 1195-1207, 1995.

5)                "Метод главных компонент," Цифровая библиотека лаборатории компьютерной графики и мультимедиа при факультете ВМиК МГУ.

6)                B. Moghaddam and A. Pentland, " Probabilistic visual learning for object representation ," IEEE Trans. Pattern Anal. Mach. Intell. 19(1), pp. 696-710, 1997.

7)                "Линейный дискриминантный анализ," Цифровая библиотека лаборатории компьютерной графики и мультимедиа при факультете ВМиК МГУ.

8)                "Факторный анализ," Цифровая библиотека лаборатории компьютерной графики и мультимедиа при факультете ВМиК МГУ,.

9)                M.-H. Yang, N. Ahuja, and D. Kriegman, " Face Detection Using Multimodal Density Models ," Computer Vision and Image Understanding (CVIU), vol. 84, no. 2, pp. 264-284, 2001.

10)            K.-K. Sung and T. Poggio, " Example-Based Learning for View- Based Human Face Detection," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 39-51, Jan. 1998.

11)            "Метод опорных векторов," Цифровая библиотека лаборатории компьютерной графики и мультимедиа при факультете ВМиК МГУ,.

12)            K.-R. Muller, S. Mika, G. Ratsch, K. Tsuda, and B. Scholkopf. " An introduction to kernel-based learning algorithms ," IEEE Transactions on Neural Networks, 12(2), pp. 181-201, 2001.

13)            Jochen Maydt and Rainer Lienhart. " Face Detection with Support Vector Machines and a Very Large Set of Linear Features ," IEEE ICME 2002, Lousanne, Switzerland, pp. xx-yy, Aug. 2002

14)            H. A. Rowley, S. Baluja, and T. Kanade, " Neural network-based face detection ," IEEE Trans. Pattern Anal. Mach. Intell. 20, pp. 23-38., January 1998

15)            Л.Р. Рабинер, " Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор ," Труды ИИЭР, т. 77, Номер 2, февраль 1989.

 

 

 

 

 

Moscow Aviation Institute (State Technical University)

MATHEMATICAL METHODS IN THE SPHERE OF MICROBIOLOGICAL SAFETY: DETECTION AND LOCATION OF MICROORGANISMS ON THE IMAGE

The task of detecting microorganisms on the image is quite simple for the trained human vision, however at attempt to generate automatic microorganisms detection system one has to encounter many complications.

The existing microorganism detection algorithms can be divided into two wide categories. The methods which are using personal experience in recognition of microorganisms are refer to the first category and trying to formalize and make an algorithm to this experience, which can be used for further development of the mathematical model of such recognition. The second category relies on toolkit of pattern recognition and considers detection problem of microorganisms as a special case of pattern recognition. It is easy enough to collect a set of simple and obvious properties of the microorganism’s image. Based on these properties, it is possible to develop an algorithm of recognition of the microorganisms, checking their presence on microorganism’s image. In this paper we set up key parameters of recognition from the point of view of development of a mathematical model of a microorganism’s recognition for medical and biologic control of human’s habitat, including in an extreme situation of manned space flight and conditions.

Keywords: mathematical model, biological safety, artificial neuron network, medical control.