Говорить по-белорусски. Сделан важный шаг в искусственном синтезе белорусской речи
На сайте проекта «Беларускі N-корпус», где над созданием Национального корпуса белорусского языка работает сектор компьютерной лингвистики Института языкознания имени Якуба Коласа НАН Беларуси, появился первый синтезатор белорусской речи.
Новая возможность расширить горизонты распространения белорусского языка.
Специалисты отмечают, что давно искали возможность создать синтезатор и теперь свои первые результаты в этом направлении сделали доступными для всех в разделе «Фанетычны канвертар і сінтэз маўлення» на сайте «Беларускага N-корпуса».
Синтезатор сделан по следам белорусскоязычной модели для озвучивания текста «Беларускі тэкст-у-маўленне» и использует те самые записи для обучения, которые были собраны проектом donar.by. На сайте проекта donar.by можно как записать («пожертвовать») свой голос, так и проверить уже сделанные записи. Одобренные записи попадают в набор данных Common Voice, который распространяется под свободной лицензией и призван помогать разработчикам создавать устройства для распознавания речи. Именно этой возможностью и воспользовались ученые из Академии наук.
Сейчас на сайте «Беларускага N-корпуса» можно сделать фонетическую транскрипцию любого белорусского текста по правилам Международного фонетического алфавита (IPA), или так называемой «школьной транскрипции», широко распространеной в отечественном языкознании. Для большинства слов конвертор способен самостоятельно подобрать и поставить ударения для корректной синтезации речи, для более редких слов, например, собственных названий, есть возможность поставить ударение самостоятельно. В нынешней тестовой версии максимальный размер текста для озвучки ограничен 2000 символов.
Пока что синтезированная речь звучит достаточно искусственно, механически, но при этом вполне корректно. Синтезаторы других крупных языков, известные уже не первый год, изначально все грешили на некорректное прочтение слов и ошибочные ударения — этот опыт, видимо, был учтен. Белорусские специалисты обещают продолжать работу дальше и призывают присоединяться всех, кто готов к сотрудничеству.
«Сейчас мы имеем опыт в обучении синтезу речи и готовы продолжать работу дальше. Для этого нам нужно привести в порядок фонетический конвертор, записать в хорошем качестве дикторов с хорошими голосами и правильной фонетикой, подготовить эти записи для обучения синтезатору речи», — отмечают разработчики.
В соцсетях эту новость восприняли чрезвычайно положительно, белорусы сразу прикинули, что развитие этой технологии позволит, например, белорусизировать голосовых помощников, автоматизировать создание субтитров на YouTube и распознавать белорусскоязычные голосовые сообщения в мессенджерах, чего сейчас нет.
Комментарии