ПОКРАЩЕННЯ РОЗПІЗНАВАННЯ СТРУКТУРОВАНОГО ТЕКСТУ НЕЙРОННОЮ МЕРЕЖЕЮ YOLO
Анотація
У даній роботі розглядається підхід до покращення розпізнавання структурованого тексту за допомогою інтеграції нейронної мережі YOLO (You Only Look Once) та технології OCR (Optical Character Recognition). Метою роботи є дослідження можливостей підвищення ефективності розпізнавання структурованого тексту шляхом інтеграції моделі YOLO з технологією OCR, а також створення автоматизованої інформаційної системи для виявлення текстових об’єктів та їх подальшого розпізнавання, що дозволяє підвищити ефективність обробки структурованого тексту. Авторами запропоновано архітектуру багатопотокової моделі, що використовує рекурентні та дво- та тривимірні згорткові нейронні мережі. Розроблене програмне забезпечення, що реалізує алгоритми обчислення оптичного потоку та частотного аналізу символів, написане на мові Python із використанням бібліотек Ultralytics, Pytesseract, Python Image Library та фреймворку веб-додатків Flask. Інтерфейс реалізовано за допомогою HTML, CSS та JavaScript, а для зберігання даних обрано базу даних MySQL. Головною особливістю системи є інтеграція моделі YOLO та OCR для забезпечення точного та швидкого розпізнавання текстових об’єктів на зображеннях. Розроблена автоматизована інформаційна система є сервіс-орієнтованою, що дозволяє користувачам завантажувати інвойси, зберігати їхні дані та отримувати аналітику щодо витрат і взаємодії з клієнтами. Система включає нейронну мережу YOLOv10, натреновану на 500 зображеннях інвойсів, REST API для користувацької взаємодії, інтерфейс для завантаження інвойсів, а також об’єкти бази даних MySQL для зберігання інформації про користувачів та їхні інвойси. Архітектура побудована за шаблоном MVC (Model-View-Controller): модель обробляє дані та бізнес-логіку, контролер зв’язує модель і представлення, а саме представлення демонструє дані користувачам. Така структура забезпечує чітке розмежування функцій між компонентами. Додатково система містить сервісні шари для бізнес-логіки та маршрутизації, а також використовує інструмент Blueprint фреймворку Flask для поділу додатка на менші компоненти та організації URL-адрес. Аналіз результатів розпізнавання тексту показав високу точність OCR, зокрема для структурованого тексту, хоча зустрічаються недоліки, такі як порушення початкової структури тексту. Однак ці недоліки можуть бути мінімізовані шляхом використання мережа YOLO разом з технологією OCR.
Посилання
2. Patel B., Pankaj K. M., Amit K. Lung Cancer Detection on CT Images by using Image Processing. International Journal of Trend in Scientific Research and Development. 2018. Vol. 2. Issue 3. P. 2525-2531. DOI: http://dx.doi.org/10.31142/ijtsrd11674. (дата звернення: 01.11.2024)
3. Bardhan Y., Tejas A. F., Prabhat R., Shekhar U., Bharate V.D. Emotion Recognition using Image Processing. International Journal of Trend in Scientific Research and Development. 2018. Vol. 2. Issue 3. P. 1523-1526. DOI: http://dx.doi.org/10.31142/ijtsrd10995 (дата звернення: 01.11.2024)
4. Jagan Mohan R. N. V., Vasamsetty C. S., Gupta V. M. N. S. S. V. K. R. Algorithms in Advanced Artificial Intelligence // Prakash I.V., Palanivelan M. A Study of YOLO (You Only Look Once) to YOLOv8. 2024. London. CRC Press. p. 257–266. DOI: https://doi.org/10.1201/9781003529231 (дата звернення: 01.11.2024)
5. Luo Z., Tian Y. Improved Infrared Road Object Detection Algorithm Based on Attention Mechanism in YOLOv8. IAENG International Journal of Computer Science. 2024. Vol. 51, p. 673 – 680. URL: https://www.iaeng.org/IJCS/issues_v51/issue_6/IJCS_51_6_12.pdf (дата звернення: 01.11.2024)
6. Legland D., Marie-Françoise D. ImageM: a user-friendly interface for the processing of multi-dimensional images with Matlab. 2021. F1000Research. p. 10-33. DOI: http://dx.doi.org/10.12688/f1000research.51732.1 (дата звернення: 01.11.2024)
7. Зінченко А. Ю. Проектування розподілених інформаційних систем на основі використання технології слабозв’язаних компонентів. Системи та технології. 2023. 63(1), с. 5-14. DOI: https://doi.org/10.32782/2521-6643-2022.1-63.1 (дата звернення: 01.11.2024)