ПОРІВНЯЛЬНИЙ АНАЛІЗ API ДЛЯ РОЗПІЗНАВАННЯ МОВЛЕННЯ ЗА ДОПОМОГОЮ PYTHON
Анотація
З розвитком комп’ютерних систем стає все більш очевидним, що використання систем розпізнавання мови набагато розшириться, якщо стане можливим використання людської мови при роботі безпосередньо з комп’ютером, і зокрема стане можливим управління машиною звичайним голосом в реальному часі, а також введення і виведення інформації у вигляді звичайної людської мови. Голосовий інтерфейс є необхідним компонентом, коли мова йде про створення комфортних умов життя. Такі системи входять в повсякденний побут, крім того, можливо їх застосування і на виробництві в складі комплексів управління виконавчими механізмами. При створенні системи голосового розпізнавання команд розробник стикається з певними проблемами: відсутність математичної моделі семантики мовного сигналу; що виражається в тому, що для визначення семантики мовного сигналу індивідуальні характеристики мовця: специфіка вимови, акценти, наголоси тощо; робота із спонтанною мовою та необхідність виділення наявності ключового слова; відмінності в акустичній обстановці, шуми, тощо. Параметризація аналогового сигналу мови є першим кроком в процесі розпізнавання мови. Алгоритми призначені для виконання параметричного представлення мовного сигналу: параметри, що описують поведінку людської слухової системи. Природно, ці алгоритми спеціально розроблені для збільшення продуктивності системи розпізнавання мови. Переважні параметри, які є списами спектральних енергій звуку, а не деталями голосу певного диктора У статті розглядається порівняння провідних API розпізнавання мовлення шляхом вивчення їхніх функцій, варіантів використання та показників продуктивності. Аналіз має на меті надати розробникам повне розуміння цих технологій, підкреслюючи їхні переваги та обмеження. Python використовувався для тестування цих API із мікрофонним введенням, пропонуючи розуміння їхньої затримки, точності та практичних застосувань. Це дослідження слугує посібником для вибору найкращого API для конкретних вимог проекту з візуальним представленням результатів для ясності.
Посилання
2. Dong Yu,Li Deng. Automatic Speech Recognition: A Deep Learning Approach. L.: Springer-Verlag London, 2015. 320 p.
3. Automatic Speech recognition: short introduction. URL:https://www.esat.kuleuven.be/psi/spraak/demo/ Recog/asr_intro.html (дата звернення: 21.12.2024)
4. Al-Fraihat, Dimah & Sharrab, Yousef & Alzyoud, Faisal & Qahmash, Ayman & Maaita, Adi. Speech Recognition Utilizing Deep Learning: A Systematic Review of the Latest Developments. 2024.Human-centric Computing and Information Sciences. 15. 10.22967/HCIS.2024.14.015.
5. Introducing the Web Speech API. URL:https://www.sitepoint.com/introducing-web-speech-api/ (дата звернення: 27.12.2024)
6. Speech-to-Text AI: speech recognition and transcription. URL:https://cloud.google.com/speech-to-text (дата звернення: 20.12.2024)
7. IBM Watson. What’s Next in AI is foundation models at rock URL:https://research.ibm.com/artificial-intelligence (дата звернення: 21.12.2024)
8. AssemblyAi Documentation. URL:https://www.assemblyai.com/docs (дата звернення: 17.12.2024)
9. Azure AI Speech. URL:https://azure.microsoft.com/en-us/products/ai-services/ai-speech (дата звернення: 21.12.2024)
10. Speech To Text Amazon Transcribe: URL:https://aws.amazon.com/transcribe/?nc1=h_ls (дата звернення: 25.12.2024)