МЕТОД КЛАСИФІКАЦІЇ ДОКУМЕНТІВ ЗА СКЛАДНІСТЮ ЕКСТРАКЦІЇ ДАНИХ ВЕЛИКИМИ МОВНИМИ МОДЕЛЯМИ

Ключові слова: велика мовна модель, екстракція даних, класифікація документів, бінарна ознака складності, логістична регресія, метрика якості, промпт

Анотація

У статті розглянуто актуальну проблему оптимізації автоматизованої екстракції даних з ділових документів за допомогою великих мовних моделей (LLM). Якість обробки документів суттєво варіюється в залежності від їх структурних та семантичних характеристик. Відсутність методів попереднього прогнозування якості екстракції призводить до неефективного використання ресурсів. Існуючі дослідження в галузі класифікації документів орієнтовані на тематичну категоризацію, а не на оцінку технічної складності отримання даних. Для розв'язання даної проблеми запропоновано метод класифікації документів за складністю їх обробки з використанням великих мовних моделей. Метод базується на розмітці документів за бінарними ознаками структурно-семантичної складності. Для кожного документа виконується автоматична екстракція даних трьома мовними моделями у режимі без прикладів з обчисленням інтегральної метрики якості екстракції через гармонійне середнє точності та повноти. На основі метрик формуються класи складності, після чого будуються класифікатори з використанням багатокласової логістичної регресії. Валідація здійснюється через стратифіковану перехресну перевірку. Ключовою особливістю методу є можливість автоматичного визначення очікуваної якості обробки документа на основі його формалізованих характеристик. Експериментальну перевірку працездатності метода здійснено на корпусі синтетичних документів з варійованими характеристиками складності. Для трьох LLM побудовано класифікатори триступеневої складності. Аналіз вагових коефіцієнтів виявив критичні фактори складності, які демонструють найбільший негативний вплив на якість екстракції. Запропоноване рішення має як теоретичне так і практичне значення. Наукова новизна полягає у створенні оригінального емпірично обґрунтованого методу класифікації документів, де цільовою змінною виступає очікувана якість екстракції даних мовними моделями. Практична цінність розробленого методу полягає у можливості автоматизованого прийняття рішень про стратегію обробки документів в організаційних системах. Отримані результати створюють підґрунтя для розвитку інтелектуальних систем обробки документів та оптимізації використання обчислювальних ресурсів.

Посилання

1. Божко О. Ю. Використання великих мовних моделей для розпізнавання інформації в нумізматичних описах. Наука і техніка сьогодні. 2024. № 1(29). С. 615–625. DOI: 10.52058/2786-6025-2024-1(29)-615-625.
2. Божко О. Ю. Розробка ітеративного методу екстракції даних з неструктурованих документів на основі використання великих мовних моделей. Вісник Кременчуцького національного університету імені Михайла Остроградського. 2025. № 1. С. 119–124. DOI: 10.32782/1995-0519.2025.1.15.
3. Xu Y., Li M., Cui L., Huang S., Wei F., Zhou M. LayoutLM: pre-training of text and layout for document image understanding. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’20). 2020. С. 1192–1200. DOI: 10.1145/3394486.3403172.
4. Rijcken E., Zervanou K., Mosteiro P., Scheepers F., Spruit M., Kaymak U. Machine learning vs. rule-based methods for document classification of electronic health records within mental health care: a systematic literature review. Natural Language Processing Journal. 2025. Т. 10. Стаття 100129. DOI: 10.1016/j.nlp.2025.100129.
5. Li B., та ін. AID-Agent: an LLM-Agent for advanced extraction and integration of documents. Proceedings of the 1st Workshop for Research on Agent Language Models (REALM 2025). 2025. С. 80–88. DOI: 10.18653/v1/2025.realm-1.6.
6. Li H., та ін. Extracting financial data from unstructured sources: leveraging large language models. SSRN Electronic Journal. 2023. DOI: 10.2139/ssrn.4567607. URL: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4567607 (Дата звернення: 15.10.2025).
7. Almeida F. C., Caminha C. Evaluation of entry-level open-source large language models for information extraction from digitized documents. Symposium on Knowledge Discovery, Mining and Learning (KDMiLe). 2024. С. 25–32. DOI: 10.5753/kdmile.2024.243859. (Офіц. стор.: sol.sbc.org.br).
8. Tito R., Karatzas D., Valveny E. Hierarchical multimodal transformers for multi-page DocVQA. arXiv:2212.05935. 2023. DOI: 10.48550/arXiv.2212.05935. URL: https://arxiv.org/abs/2212.05935 (Дата звернення: 15.10.2025).
9. Ranaweera U., Mawitagama B., Liyanage S., Keshan S., De Silva T., Hewawalpita S. Comparison of machine learning models to classify documents on digital development. у кн.: Data Science and Artificial Intelligence / ред. C. Anutariya, M. M. Bonsangue. Singapore: Springer, 2023. (CCIS, т. 1942). С. 59–73. DOI: 10.1007/978-981-99-7969-1_5.
10. Le D. X., Thoma G. R. Page layout classification technique for biomedical documents. Proceedings of the World Multiconference on Systems, Cybernetics and Informatics (SCI). 2000. Т. X. С. 348–352. URL: https://lhncbc.nlm.nih.gov/LHC-publications/PDF/pub2000015.pdf (Дата звернення: 15.10.2025).
11. Petrov K., Chalyi T. Situational model of a medical business process. Bulletin of National Technical University “KhPI”. Series: System Analysis, Control and Information Technologies. 2024. № 2(12). С. 42–45. DOI: 10.20998/2079-0023.2024.02.07.
12. Shin C., Doermann D., Rosenfeld A. Classification of document pages using structure-based features. International Journal on Document Analysis and Recognition (IJDAR). 2001. Т. 3, № 4. С. 232–247. DOI: 10.1007/PL00013566.
Опубліковано
2025-12-30
Як цитувати
Божко, О. Ю. (2025). МЕТОД КЛАСИФІКАЦІЇ ДОКУМЕНТІВ ЗА СКЛАДНІСТЮ ЕКСТРАКЦІЇ ДАНИХ ВЕЛИКИМИ МОВНИМИ МОДЕЛЯМИ. Системи та технології, 70(2), 84-92. https://doi.org/10.32782/2521-6643-2025-2-70.9
Розділ
КОМП’ЮТЕРНІ НАУКИ