ІНТЕРАКТИВНА СИСТЕМА СЕМАНТИЧНОГО РЕДАГУВАННЯ РАСТРОВОЇ ГРАФІКИ НА ОСНОВІ ІНТЕГРАЦІЇ МУЛЬТИМОДАЛЬНИХ ГЕНЕРАТИВНИХ API

Д. В. Чорнобривець; С. В. Поперешняк

Д. В. Чорнобривець Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0009-0006-3647-9318
С. В. Поперешняк Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0002-0531-9809

Ключові слова: семантичне редагування, комп’ютерний зір, генеративний штучний інтелект, Inpainting, мультимодальні API, графічний інтерфейс користувача, клієнт-серверна архітектура

Анотація

У роботі досліджується процес автоматизованого семантичного редагування растрових зображень із використанням методів штучного інтелекту. Актуальність дослідження зумовлена високою ресурсоємністю сучасних генеративних моделей, що потребують потужних графічних процесорів для виконання операцій Inpainting, а також обмеженою гнучкістю хмарних сервісів у частині точного просторового керування редагуванням. Це створює проблему доступності інтелектуальних інструментів редагування для користувачів із базовими обчислювальними ресурсами. Метою роботи є підвищення доступності та ефективності процесів семантичного редагування зображень за рахунок розподілу обчислювального навантаження між клієнтською та серверною частинами системи. У роботі запропоновано підхід, що поєднує локальні інструменти формування просторових масок із використанням хмарного мультимодального API (Gemini 3 Flash Image) для виконання генеративних перетворень. У результаті дослідження спроєктовано та реалізовано легковаговий десктопний застосунок із модульною клієнт-серверною архітектурою. Ключовими особливостями системи є використання асинхронної багатопотокової обробки мережевих запитів, що забезпечує відсутність блокування графічного інтерфейсу, а також застосування алгоритмів зворотного композитингу для коректного інтегрування згенерованих фрагментів у вихідне зображення. Реалізовано механізм формування бінарних масок у реальному часі на основі координат курсору, що дозволяє забезпечити високу точність виділення зон інтересу. Отримані результати пояснюються ефективним перенесенням тензорних обчислень на хмарну інфраструктуру при збереженні локального контролю над процесом редагування. Експериментальні дослідження підтвердили можливість виконання складних графічних модифікацій на пристроях із низькою обчислювальною потужністю без втрати якості результату. Практичне значення роботи полягає у можливості використання розробленої системи цифровими художниками, дизайнерами та дослідниками для швидкого прототипування та редагування зображень без необхідності використання спеціалізованого апаратного забезпечення.

Посилання

1. Coloma Ballester, Bertalmio M., Caselles V., Sapiro G., Verdera J. Filling-in by joint interpolation of vector fields and gray levels // IEEE Transactions on Image Processing. 2001. Vol. 10, No. 8. P. 1200–1211.
2. Bertalmio M., Sapiro G., Caselles V., Ballester C. Image inpainting // Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques. 2000. P. 417–424.
3. Lugmayr A., Danelljan M., Romero A., Yu F., Timofte R., Van Gool L. RePaint: inpainting using denoising diffusion probabilistic models // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. P. 11461–11471.
4. Dixit M., Srimathi C., Doss R., Loke S., Saleemdurai M. A. Smart parking with computer vision and IoT technology // 2020 43rd International Conference on Telecommunications and Signal Processing (TSP). Milan, Italy, 2020. P. 170–174. DOI: 10.1109/TSP49548.2020.9163467
5. Giampaoli L. E., Hessel F. Parking space occupancy monitoring system using computer vision and IoT // 2021 IEEE 7th World Forum on Internet of Things (WF-IoT). New Orleans, LA, USA, 2021. P. 7–12. DOI: 10.1109/WF-IoT51360.2021.9595935
6. Kuzela M., Fryza T., Zeleny O. Using computer vision and machine learning for efficient parking management: a case study // 2024 13th Mediterranean Conference on Embedded Computing (MECO). Budva, Montenegro, 2024. P. 1–4. DOI: 10.1109/MECO62516.2024.10577808
7. Popereshnyak S., Yurchuk I. Car parking data processing technique for smart parking system as part of smart city // Advances in Intelligent Systems and Computing. 2021. Vol. 1246. DOI: https://doi.org/10.1007/978-3-030-54215-3
8. Поперешняк С. В., Чорнобривець Д. В. Підхід до виявлення доступності паркувальних місць на основі комп’ютерного зору // Системи та технології. 2025. № 69(1). С. 83–91. DOI: https://doi.org/10.32782/2521-6643-2025-1-69.10
9. Moore A. Python GUI programming with Tkinter: develop responsive and powerful GUI applications with Tkinter and Python 3. 2nd ed. Birmingham: Packt Publishing, 2018. 368 p.

ІНТЕРАКТИВНА СИСТЕМА СЕМАНТИЧНОГО РЕДАГУВАННЯ РАСТРОВОЇ ГРАФІКИ НА ОСНОВІ ІНТЕГРАЦІЇ МУЛЬТИМОДАЛЬНИХ ГЕНЕРАТИВНИХ API

Анотація

Посилання

Статті цього автора (авторів), які найбільше читають