Искусственный интеллект помог прочитать таблички с клинописью, которым пять тысяч лет
Модель, созданная археологами и специалистами по машинному обучению, имеет шанс произвести революцию в исследованиях древнейшей письменности, созданной человечеством.
04.07.2023 / 22:41
Глиняная табличка из Шурупака с текстом о продаже поля и дома, около 2600 г. до н. э. Фото: Wikimedia Commons
До сих пор многие древние письменные системы остаются нерасшифрованными. Среди них письмо цивилизации долины Инда, линейное письмо А, которым пользовались древние жители Крита, а также письмо, нанесенное на Фестский диск — памятник, который, по мнению ученых, относится к минойской культуре. Расшифровка этого письма позволила бы пролить свет на историю народов, которые им пользовались.
Однако с развитием искусственного интеллекта ученые получают абсолютно новые возможности. Исследователи из двух израильских университетов создали модель нейронного машинного перевода, которая может переводить письменный аккадский язык, который трудно расшифровать.
Аккадский язык принадлежит к группе семитских языков, он использовался в Месопотамии с середины III тысячелетия до нашей эры до начала I тысячелетия нашей эры.
Использование модели позволяет быстро и относительно эффективно читать клинопись из табличек, собранных археологами за последние двести лет. Самым древним из них-около пяти тысяч лет. В музеях, университетах и научных учреждениях всего мира на сегодня хранится около 500 тысяч глиняных табличек с клинописью.
Своими достижениями ученые поделились в научной статье, опубликованной в журнале PNAS Nexus.
В своей статье исследователи отмечают, что перевод-это сложный процесс, так как обычно требуется не только экспертное владение двумя разными языками, но и знание различного культурного окружения.
Цифровые инструменты, которые могут помочь в переводе, становятся все более распространенными. Это связано с прогрессом в таких областях, как оптическое распознавание символов и машинный перевод.
Однако древние языки по-прежнему представляют большую проблему в этом отношении. Их прочтение и понимание требует знаний давно умершего языкового сообщества, к тому же сами тексты тоже могут быть весьма фрагментарными.
Модель нейронного машинного перевода, которую разработали ученые, основана на обработке письменной речи и глубоком обучении, которое основано на т. н. сверточной нейронной сети (convolutional neural networks), она была специально разработана для эффективного распознавания образов.
Ее цель — кооперация человека и машины, создание так называемого конвейера, или последовательности шагов, преобразующих аккадский язык в английский. Он начинается с изображения клинописной таблички и заканчивается ее транслитерацией и переводом.
Ученые отмечают, что клинописные знаки поливалентны, это значит, что каждый знак имеет больше, чем одно возможное прочтение, и это прочтение определяется предыдущим и последующим знаками. Они научили модель машинного обучения автоматически определять соответствующее прочтение и сегментацию.
Ученые достигли точности от 89,5% до почти 97% в зависимости от алгоритма и вида текста. Как объясняют исследователи, наилучшие результаты были получены в случае текстов с заранее определенной структурой, например, царских указов. Хуже было с поэтическими текстами. В этом случае искусственный интеллект много выдумывал.
Кроме того, модель достигает наилучших результатов в коротких и средних по количеству слов предложениях (около 118 знаков или меньше). По мере увеличения количества оцифрованных текстов результаты могут быть улучшены путем дальнейшего обучения в рамках системы «человека в цикле», что позволяет корректировать работу искусственного интеллекта.
Теперь модель доступна онлайн, а ее исходный код можно найти на GitHub в Akkademi. Для того, чтобы сделать свой конвейер более доступным, ученые реализовали его функциональность в виде онлайн-приложения под названием Babylonian Engine.
Ученые планируют, что через несколько лет (хотя они не могут сказать точно, через сколько) в случае, если археологи и филологи будут на раскопках и найдут новый архив клинописных текстов, они смогут сфотографировать каждую табличку и получить приблизительную транслитерацию и перевод текстов. Программа сможет по почерку предложить возможную дату создания текста, назовет даже имя предполагаемого писца или группы писцов, определит жанр и многого другого.
Ученые планируют создать онлайн-инструменты для редактирования клинописных текстов, чтобы исследователи могли исправлять и улучшать первоначальные результаты. В планах также создание виртуальных туров по древним столицам и степям Месопотамии и Анатолии, что может преобразовать процесс обучения в игру для студентов.
Это может преобразовать ассириологию из узкоспециализированной темы в одну из наиболее изучаемых, значительно ускорить процесс исследования и в разы увеличить наши знания об одном из самых древних и развитых обществ в мире.
Читайте еще:
Ученые наконец расшифровали начало таинственного манускрипта Войнича XV века
Как ученые пытаются научить компьютер языку жестов
Ученые расшифровали надпись на древнем языке возрастом 3200 лет