Революція в мовленнєвому синтезі: штучний інтелект освоїв українську мову на новому рівні -- Delo.ua
Штучний інтелект спілкуватиметься українською більш вільно.
Науковці зосередили свою увагу на вирішенні важливої задачі українського синтезу мовлення – точному визначенні акцентуації слів залежно від контексту. Для досягнення цієї мети команда провела всебічну роботу, яка поєднує лінгвістичні та технологічні підходи.
Зокрема, дослідники вручну підготували розмічений бенчмарк для оцінки технік акцентуації тексту та виконали порівняльний аналіз існуючих методів. На основі отриманих результатів була створена модель для автоматичного розпізнавання акцентів, яка використовується для автоматизованої розмітки омографів—слів, що мають однаковий напис, але різні значення та вимову в залежності від акцентуації.
Основним досягненням стало створення моделі, яка забезпечує розстановку наголосів у контексті, поєднуючи нейромережеві технології зі словниковими даними. Цей гібридний підхід наразі вважається найсучаснішим у своєму жанрі для української мови.
Унікальним аспектом даної розробки є фонемізатор, який був створений на основі традиційних лінгвістичних досліджень, зокрема, методичних рекомендацій з видання "Сучасна українська літературна мова: Лексикологія. Фонетика", редагованого Мойсієнком. Програмна реалізація цього проекту була здійснена Михайлом Лук'янчуком під керівництвом Валентини Робейко.
Раніше основною складністю у розробці природного українського "голосу" для штучного інтелекту була ускладнена фонологічна структура та невизначена система акцентуації. Раніше використовувані системи часто стикалися з помилками, оскільки базувалися лише на словниках або занадто спрощених вимовних правилах, не беручи до уваги контекст цілого речення.
Новий підхід уперше дозволяє аналізувати контекст повністю. Технічне рішення базується на гібридній архітектурі, що поєднує нейромережу ByT5 для контекстного аналізу та докладно прописані лінгвістичні правила для перетворення тексту на звуки.
Окрім самої моделі, команда презентувала перший в Україні спеціалізований бенчмарк, що дозволяє оцінювати системи прогнозування наголосів. Цей бенчмарк включає більше тисячі речень, які були анотовані вручну, і може слугувати основою для майбутніх досліджень та вдосконалення технологій обробки української мови.
Результати проведених експериментів підтвердили значну ефективність нової технології. Розроблений фонемайзер виявився надзвичайно точним, продемонструвавши вкрай низький рівень помилок — показник WER склав лише 1,23% на тестовій вибірці. Крім того, комбінована система прогнозування наголосів досягла кращих показників, ніж існуючі нейромережеві рішення, забезпечивши точність на рівні 92,5%.
Для користувачів це означає значно більш природне та ясне звучання україномовних цифрових сервісів. Зокрема, вдосконалення відчують ті, хто користується віртуальними асистентами, навігаційними платформами, а також програмами для синтезу мови та читання текстів з екрану.
Нагадаємо, що Twitch інтегрував українську мову в свій інтерфейс після офіційного запиту Міністерства цифрової трансформації України. На даний момент локалізація перебуває в стадії активного бета-тестування.