Искусственный интеллект помог прочитать таблички с клинописью, которым пять тысяч лет

Модель, созданная археологами и специалистами по машинному обучению, имеет шанс произвести революцию в исследованиях древнейшей письменности, созданной человечеством.

04.07.2023 / 22:41

Глиняная табличка из Шурупака с текстом о продаже поля и дома, около 2600 г. до н. э. Фото: Wikimedia Commons

До сих пор многие древние письменные системы остаются нерасшифрованными. Среди них письмо цивилизации долины Инда, линейное письмо А, которым пользовались древние жители Крита, а также письмо, нанесенное на Фестский диск — памятник, который, по мнению ученых, относится к минойской культуре. Расшифровка этого письма позволила бы пролить свет на историю народов, которые им пользовались.

Однако с развитием искусственного интеллекта ученые получают абсолютно новые возможности. Исследователи из двух израильских университетов создали модель нейронного машинного перевода, которая может переводить письменный аккадский язык, который трудно расшифровать.

Аккадский язык принадлежит к группе семитских языков, он использовался в Месопотамии с середины III тысячелетия до нашей эры до начала I тысячелетия нашей эры.

Использование модели позволяет быстро и относительно эффективно читать клинопись из табличек, собранных археологами за последние двести лет. Самым древним из них-около пяти тысяч лет. В музеях, университетах и научных учреждениях всего мира на сегодня хранится около 500 тысяч глиняных табличек с клинописью.

Своими достижениями ученые поделились в научной статье, опубликованной в журнале PNAS Nexus.

В своей статье исследователи отмечают, что перевод-это сложный процесс, так как обычно требуется не только экспертное владение двумя разными языками, но и знание различного культурного окружения.

Цифровые инструменты, которые могут помочь в переводе, становятся все более распространенными. Это связано с прогрессом в таких областях, как оптическое распознавание символов и машинный перевод.

Однако древние языки по-прежнему представляют большую проблему в этом отношении. Их прочтение и понимание требует знаний давно умершего языкового сообщества, к тому же сами тексты тоже могут быть весьма фрагментарными.

Модель нейронного машинного перевода, которую разработали ученые, основана на обработке письменной речи и глубоком обучении, которое основано на т. н. сверточной нейронной сети (convolutional neural networks), она была специально разработана для эффективного распознавания образов.

Ее цель — кооперация человека и машины, создание так называемого конвейера, или последовательности шагов, преобразующих аккадский язык в английский. Он начинается с изображения клинописной таблички и заканчивается ее транслитерацией и переводом.

Ученые отмечают, что клинописные знаки поливалентны, это значит, что каждый знак имеет больше, чем одно возможное прочтение, и это прочтение определяется предыдущим и последующим знаками. Они научили модель машинного обучения автоматически определять соответствующее прочтение и сегментацию.

Ученые достигли точности от 89,5% до почти 97% в зависимости от алгоритма и вида текста. Как объясняют исследователи, наилучшие результаты были получены в случае текстов с заранее определенной структурой, например, царских указов. Хуже было с поэтическими текстами. В этом случае искусственный интеллект много выдумывал.

Кроме того, модель достигает наилучших результатов в коротких и средних по количеству слов предложениях (около 118 знаков или меньше). По мере увеличения количества оцифрованных текстов результаты могут быть улучшены путем дальнейшего обучения в рамках системы «человека в цикле», что позволяет корректировать работу искусственного интеллекта.

Теперь модель доступна онлайн, а ее исходный код можно найти на GitHub в Akkademi. Для того, чтобы сделать свой конвейер более доступным, ученые реализовали его функциональность в виде онлайн-приложения под названием Babylonian Engine.

Ученые планируют, что через несколько лет (хотя они не могут сказать точно, через сколько) в случае, если археологи и филологи будут на раскопках и найдут новый архив клинописных текстов, они смогут сфотографировать каждую табличку и получить приблизительную транслитерацию и перевод текстов. Программа сможет по почерку предложить возможную дату создания текста, назовет даже имя предполагаемого писца или группы писцов, определит жанр и многого другого.

Ученые планируют создать онлайн-инструменты для редактирования клинописных текстов, чтобы исследователи могли исправлять и улучшать первоначальные результаты. В планах также создание виртуальных туров по древним столицам и степям Месопотамии и Анатолии, что может преобразовать процесс обучения в игру для студентов.

Это может преобразовать ассириологию из узкоспециализированной темы в одну из наиболее изучаемых, значительно ускорить процесс исследования и в разы увеличить наши знания об одном из самых древних и развитых обществ в мире.

Читайте еще:

Ученые наконец расшифровали начало таинственного манускрипта Войнича XV века

Как ученые пытаются научить компьютер языку жестов

Ученые расшифровали надпись на древнем языке возрастом 3200 лет

Nashaniva.com