Говорить по-белорусски. Сделан важный шаг в искусственном синтезе белорусской речи
На сайте проекта «Беларускі N-корпус», где над созданием Национального корпуса белорусского языка работает сектор компьютерной лингвистики Института языкознания имени Якуба Коласа НАН Беларуси, появился первый синтезатор белорусской речи.
10.07.2023 / 18:52
Новая возможность расширить горизонты распространения белорусского языка.
Специалисты отмечают, что давно искали возможность создать синтезатор и теперь свои первые результаты в этом направлении сделали доступными для всех в разделе «Фанетычны канвертар і сінтэз маўлення» на сайте «Беларускага N-корпуса».
Синтезатор сделан по следам белорусскоязычной модели для озвучивания текста «Беларускі тэкст-у-маўленне» и использует те самые записи для обучения, которые были собраны проектом donar.by. На сайте проекта donar.by можно как записать («пожертвовать») свой голос, так и проверить уже сделанные записи. Одобренные записи попадают в набор данных Common Voice, который распространяется под свободной лицензией и призван помогать разработчикам создавать устройства для распознавания речи. Именно этой возможностью и воспользовались ученые из Академии наук.
Демонстрация синтеза белорусского языка.
Сейчас на сайте «Беларускага N-корпуса» можно сделать фонетическую транскрипцию любого белорусского текста по правилам Международного фонетического алфавита (IPA), или так называемой «школьной транскрипции», широко распространеной в отечественном языкознании. Для большинства слов конвертор способен самостоятельно подобрать и поставить ударения для корректной синтезации речи, для более редких слов, например, собственных названий, есть возможность поставить ударение самостоятельно. В нынешней тестовой версии максимальный размер текста для озвучки ограничен 2000 символов.
Пример обработки конвертером текста «Наша Ніва першая беларуская газета з карцінкамі»
Пока что синтезированная речь звучит достаточно искусственно, механически, но при этом вполне корректно. Синтезаторы других крупных языков, известные уже не первый год, изначально все грешили на некорректное прочтение слов и ошибочные ударения — этот опыт, видимо, был учтен. Белорусские специалисты обещают продолжать работу дальше и призывают присоединяться всех, кто готов к сотрудничеству.
«Сейчас мы имеем опыт в обучении синтезу речи и готовы продолжать работу дальше. Для этого нам нужно привести в порядок фонетический конвертор, записать в хорошем качестве дикторов с хорошими голосами и правильной фонетикой, подготовить эти записи для обучения синтезатору речи», — отмечают разработчики.
В соцсетях эту новость восприняли чрезвычайно положительно, белорусы сразу прикинули, что развитие этой технологии позволит, например, белорусизировать голосовых помощников, автоматизировать создание субтитров на YouTube и распознавать белорусскоязычные голосовые сообщения в мессенджерах, чего сейчас нет.