СТОХАСТИЧНІ ОПЕРАТОРИ ВПЛИВУ ДІЙ: ФОРМАЛІЗАЦІЯ ТА БАГАТОКРОКОВЕ РЕГУЛЯРИЗОВАНЕ НАВЧАННЯ

Б. Ю. Заіка; С. В. Єршов

Б. Ю. Заіка Інститут кібернетики імені В.М.Глушкова НАН України https://orcid.org/0009-0001-9567-8361
С. В. Єршов Інститут кібернетики імені В.М.Глушкова НАН України https://orcid.org/0000-0002-9895-777X

Ключові слова: стохастичні динамічні системи, оператор впливу дії, рекурсивна композиція, багатокрокова регуляризація, калібрування невизначеності, довгострокова стабільність, машинне навчання

Анотація

У статті запропоновано формалізацію впливу дій у стохастичних динамічних системах у вигляді окремого стохастичного оператора, що діє на стани системи. Точне моделювання впливу дій є важливою проблемою послідовного прийняття рішень за умов невизначеності, оскільки в багатьох реальних системах дії застосовуються повторно, а їхні наслідки поширюються через динаміку системи з плином часу. Хоча сучасні підходи машинного навчання, зокрема навчання з підкріпленням та оцінювання умовних щільностей розподілу, здатні апроксимувати короткострокові переходи, поведінка навчених моделей при рекурсивному багатокроковому застосуванні залишається недостатньо дослідженою. У більшості існуючих підходів динаміка переходів інтегрована в задачі оптимізації політики або прогнозування траєкторій і рідко розглядається як самостійний об’єкт моделювання. У запропонованому підході оператор впливу дії відображає поточний стан системи та застосовану дію в умовний розподіл майбутніх станів і визначається з явною композиційною структурою. Це дозволяє аналізувати рекурсивне застосування оператора протягом кількох кроків часу. Запропоновано цільову функцію навчання, яка поєднує однокрокову негативну логарифмічну правдоподібність із додатковим членом багатокрокової узгодженості, отриманим із композиції оператора. Центральна гіпотеза дослідження полягає в тому, що однокрокове навчання за принципом максимальної правдоподібності не гарантує стабільної довгострокової поведінки у випадку рекурсивного застосування навченого оператора. Для перевірки цієї гіпотези проведено емпіричне дослідження у повністю спостережуваній стохастичній динамічній системі з використанням мінімальної реалізовної лінійної гаусівської моделі. Емпіричні результати показують, що однокрокове навчання призводить до суттєвої деградації багатокрокових прогнозів, зокрема до накопичення похибки траєкторії та систематичної недооцінки прогностичної невизначеності. Запровадження явної багатокрокової регуляризації суттєво покращує довгострокову стабільність і калібрування невизначеності, причому позитивний ефект зберігається за межами горизонту навчання. Запропонована формалізація встановлює основи моделювання впливу дій у стохастичних динамічних системах і пропонує машинно-навчальну основу для надійного моделювання рекурсивно застосовуваних переходів. Це створює підґрунтя для подальших досліджень у частково спостережуваних середовищах, нелінійних архітектурах та системах підтримки прийняття рішень.

Посилання

1. Tsironis G. Artificial intelligence and complex dynamical systems. Cham: Springer, 2025. 296 p. (Understanding Complex Systems). https://doi.org/10.1007/978-3-031-81946-9
2. Симонов Д. І. Метод ентропії як інструмент оптимізації складних систем. Журнал обчислювальної та прикладної математики. 2024. № 1. С. 49–58. https://doi.org/10.17721/2706-9699.2024.1.04
3. Cheng C., Ichinose G., Small M., Moreno Y. Uncertainty quantification in complex dynamical systems. Physica D: Nonlinear Phenomena. 2025. Vol. 481. Art. 134838. https://doi.org/10.1016/j.physd.2025.134838
4. Poquet O., Jovanovic J., Pardo A. Student profiles of change in a university course: A complex dynamical systems perspective. In: Proceedings of the 13th International Learning Analytics and Knowledge Conference (LAK 2023). New York : ACM, 2023. P. 197–207. https://doi.org/10.1145/3576050.3576077
5. Geier C., Hamdi S., Chancelier T., Dufrénoy P., Hoffmann N., Stender M. Machine learning-based state maps for complex dynamical systems: Applications to friction-excited brake system vibrations. Nonlinear Dynamics. 2023. Vol. 111, No. 24. P. 22137–22151. https://doi.org/10.1007/s11071-023-08739-6
6. Симонов Д. І., Горбачук В. М. Метод пошуку рішень у динамічній моделі управління запасами за невизначеності. Вісник Київського національного університету імені Тараса Шевченка. Серія фізико-математичні науки. 2022. № 4. С. 31–39. https://doi.org/10.17721/1812-5409.2022/4.4
7. Li J., Guo S., Ma R., et al. Comparison of the effects of imputation methods for missing data in predictive modelling of cohort study datasets. BMC Medical Research Methodology. 2024. Vol. 24, No. 1. Art. 41. https://doi.org/10.1186/s12874-024-02173-x
8. Char I., Abbate J., Bardoczi L., et al. Offline model-based reinforcement learning for tokamak control. In: Proceedings of The 5th Annual Learning for Dynamics and Control Conference. Vol. 211. PMLR, 2023. P. 1357–1372.
9. Graffeuille O., Koh Y. S., Wicker J. S., Lehmann M. K. Semi-supervised conditional density estimation with Wasserstein Laplacian regularisation. Proceedings of the AAAI Conference on Artificial Intelligence. 2022. https://doi.org/10.1609/aaai.v36i6.20630
10. Forgione M., Piga D. Neural state-space models: Empirical evaluation of uncertainty quantification. IFAC-PapersOnLine. 2023. Vol. 56, No. 2. P. 4082–4087. https://doi.org/10.1016/j.ifacol.2023.10.1736
11. Hu Z., Ahmadi Daryakenari N., Shen Q., Kawaguchi K., Karniadakis G. E. State-space models are accurate and efficient neural operators for dynamical systems. Neural Networks. 2026. Vol. 197. Art. 108496. https://doi.org/10.1016/j.neunet.2025.108496
12. Volkmann E., Brändle A., Durstewitz D., Koppe G. A scalable generative model for dynamical system reconstruction from neuroimaging data. Advances in Neural Information Processing Systems. 2024. Vol. 37. P. 80328–80362.
13. Hafner D., Pasukonis J., Ba J., Lillicrap T. Mastering diverse control tasks through world models. Nature. 2025. Vol. 640, No. 8059. P. 647–653. https://doi.org/10.1038/s41586-025-08744-2
14. Sun R., Zang H., Li X., Islam R. Learning latent dynamic robust representations for world models. In: Proceedings of the 41st International Conference on Machine Learning (ICML 2024). PMLR, 2024.
15. Frauenknecht B., Eisele A., Devdutt S., Solowjow F., Trimpe S. Trust the model where it trusts itself: Model-based actor-critic with uncertainty-aware rollout adaption. In: Proceedings of the 41st International Conference on Machine Learning (ICML 2024). PMLR, 2024.
16. Barenboim M., Shienman M., Indelman V. Monte Carlo planning in hybrid belief POMDPs. IEEE Robotics and Automation Letters. 2023. Vol. 8, No. 8. P. 4410–4417. https://doi.org/10.1109/LRA.2023.3282773
17. Arcieri G., Hoelzl C., Schwery O., et al. POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance. Machine Learning. 2024. Vol. 113, No. 10. P. 7967–7995. https://doi.org/10.1007/s10994-024-06559-2
18. Peters J., Bauer S., Pfister N. Causal models for dynamical systems. In: Probabilistic and Causal Inference: The Works of Judea Pearl. 2022. P. 671–690.
19. Lozano-Durán A., Arranz G. Information-theoretic formulation of dynamical systems: Causality, modeling, and control. Physical Review Research. 2022. Vol. 4, No. 2. Art. 023195. https://doi.org/10.1103/PhysRevResearch.4.023195
20. Zeng Y., Cai R., Sun F., Huang L., Hao Z. A survey on causal reinforcement learning. IEEE Transactions on Neural Networks and Learning Systems. 2024.
21. Zhou Y., Qi Z., Shi C., Li L. Optimizing pessimism in dynamic treatment regimes: A Bayesian learning approach. In: Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (AISTATS 2023). PMLR, 2023. P. 6704–6721.