ОЦІНЮВАННЯ ЩІЛЬНОСТІ РОЗПОДІЛУ: ТРИ ОСНОВНІ ПІДХОДИ

Ключові слова: оцінювання щільності розподілу, непараметричний підхід, параметричний підхід, напівпараметричний підхід, статистика, машинне навчання

Анотація

У роботі було проведено детальний аналіз трьох основних підходів до оцінювання щільності розподілу даних: непараметричного, параметричного та напівпараметричного. Результати цього порівняння вказують на те, що ефективність кожного методу залежить від конкретного контексту та особливостей вхідних даних. Дослідження включало аналіз методів та середовища, що використовуються для оцінювання щільності розподілу. Важливим етапом було визначення набору вхідних даних, який використовується для порівняння методів. Це може включати в себе вибір конкретного датасету та встановлення параметрів, які впливають на результати дослідження. Для проведення порівняльного аналізу було реалізовано тренування та побудовано моделі для оцінювання щільності розподілу з використанням кожного з обраних підходів. Використані бібліотеки, такі як seaborn, numpy, pandas, matplotlib. pyplot, sklearn.datasets, sklearn.model_selection, scipy.stats, надали необхідні інструменти для ефективної реалізації та візуалізації результатів. Аналіз включав обчислення середньої щільності та квадратичної помилки для кожного виду ірисів на обраних даних. Це дозволило визначити ефективність кожного методу для конкретного класу даних та вибрати оптимальний підхід. В дослідженні було враховано важливі аспекти, такі як статистична значущість отриманих результатів та стійкість методів до випадкових аномалій чи викидів у даних. Розглядані підходи до оцінювання щільності розподілу також піддавалися перевірці на різних сценаріях, включаючи випадки з нерівномірним розподілом даних, асиметричні розподіли та наявність великої кількості аномалій. Дослідження також зосереджувалося на порівнянні різних метрик якості моделі, таких як середня квадратична помилка. Це дозволяє визначити, наскільки точно кожен метод відтворює реальний розподіл даних та визначає його адекватність для конкретного застосування. Основним висновком дослідження є те, що щільність розподілу даних суттєво залежить від набору даних, особливостей текстів, підходу оцінювання та використаних методів обробки даних. Отже, рекомендації щодо вибору методів та підходів до оцінювання щільності повинні бути адаптовані до конкретної задачі та контексту застосування.

Посилання

1. Al-Saaidy H.J.E., Alobaydi D. Studying street centrality and human density in different urban forms in Baghdad. Iraq. Ain Shams Eng J. 2021. Vol. 12(1). Р. 1111–1121.
2. Anderson W., Guikema S., Zaitchik B., Pan W. Methods for estimating population density in data-limited areas: evaluating regression and tree-based models in Peru. PLOS. 2014. Vol. 9(7). P. 1–15.
3. Angel S., Arango Franco S., Liu Y., Blei A.M. The shape compactness of urban footprints. Prog Plann. 2020. Vol. 139. P.100429.
4. Angel S., Lamson-Hall P., Blanco Z.G. Anatomy of density: measurable factors that together constitute urban density. Buildings and Cities. 2021. Vol. 2(1). P. 264–282.
5. Boyko C.T., Cooper R. Clarifying and re-conceptualising density. Prog Plann. 2011. Vol. 76(1). P. 1–61.
6. Brunsdon C., Fotheringham A.S., Charlton M.E. Geographically weighted regression: a method for exploring spatial nonstationarity. Geogr. Anal. 2010. Vol. 28(4). P. 281–298. https://onlinelibrary.wiley.com/doi/10.1111/j.1538-4632.1996.tb00936.x
7. Credit K. Spatial models or random forest? Evaluating the use of spatially explicit machine learning methods to predict employment density around new transit stations in Los Angeles. Geog Anal. 2022. Vol. 54(1). P. 58–83.
8. Dovey K., Pafka E. The urban density assemblage: modelling multiple measures. Urban Des Int. 2014. Vol. 19(1). P. 66–76.
9. Ehrlich D., Kemper T., Pesaresi M., Corbane C. Built-up area and population density: two essential societal variables to address climate hazard impact. Environ Sci Policy. 2018. Vol. 90. P. 73–82.
10. Faour G. Evaluating urban expansion using remotely-sensed data in Lebanon. Leban. Sci. J. 2015. Vol. 16(1). P. 23–32.
11. Georganos S., Grippa T., Niang Gadiaga A., Linard C., Lennert M., Vanhuysse S., Mboga N., Wolff E., Kalogirou S. Geographical random forests: a spatial extension of the random forest algorithm to address spatial heterogeneity in remote sensing and population modelling. Geocarto International. 2021. Vol. 36(2). P. 121–136.
12. Guastella G., Oueslati W., Pareglio S. Patterns of urban spatial expansion in European cities. Sustainability (Switzerland). 2019. Vol. 11(8). P. 2247.
13. Güneralp B., Zhou Y., Ürge-Vorsatz D., Gupta M., Yu S., Patel P.L., Fragkias M., Li X., Seto K.C. Global scenarios of urban density and its impacts on building energy use through 2050. Proc Natl Acad Sci U S A. 2017. Vol. 114(34). P. 8945–8950.
14. Jongman B., Ward P.J., Aerts J.C.J.H. Global exposure to river and coastal flooding: long term trends and changes. Global Environ Change. 2012. Vol. 22(4). P. 823–835.
15. McFarlane C. The geographies of urban density: topology, politics and the city. Prog Human Geogr. 2016. Vol. 40(5). P. 629–648.
16. Rodriguez-Galiano V., Sanchez-Castillo M., Chica-Olmo M., Chica-Rivas M. Machine learning predictive models for mineral prospectivity: an evaluation of neural networks, random forest, regression trees and support vector machines. Ore Geol Rev. 2015. Vol. 71. P. 804–818.
17. Shang S., Du S., Zhu S. Estimating building-scale population using multi-source spatial data. Cities. 2021. Vol. 111. P. 103002.
18. Sharifi A. Resilient urban forms: a review of literature on streets and street networks. Build Environ. 2019. Vol. 147. P. 171–187.
19. Talebi H., Peeters L.J.M., Otto A., Tolosana-Delgado R. A truly spatial random forests algorithm for geoscience data analysis and modelling. Math Geosci. 2022. Vol. 54(1). P. 1–22.
Опубліковано
2023-12-18
Як цитувати
Бойко, Н. І., & Чорнобай, Д. С. (2023). ОЦІНЮВАННЯ ЩІЛЬНОСТІ РОЗПОДІЛУ: ТРИ ОСНОВНІ ПІДХОДИ. Системи та технології, 66(2), 32-42. https://doi.org/10.32782/2521-6643-2023.2-66.4
Розділ
КОМП’ЮТЕРНІ НАУКИ