Новое устройство искусственного интеллекта Point-E позволяет пользователям создавать 3D-объекты, используя лишь текстовые подсказки
Очередной ступенью, которую захватит мир искусственного интеллекта, могут стать генераторы 3D-моделей. Компания OpenAI представила программу с открытым исходным кодом Point-E, которая представляет собой систему машинного обучения, создающую 3D-объект по текстовой подсказке.
Согласно документу, опубликованному вместе с базой кода, Point-E может создавать 3D-модели за одну-две минуты на одном графическом процессоре Nvidia V100.
Издание TechCrunch сообщает, что Point-E не создает 3D-объекты в традиционном понимании. Скорее, он создает «облака точек» или дискретные наборы точек данных в пространстве, представляющие собой трехмерную форму — отсюда и название. (Point с английского означает «точка», а буква «E» — это сокращение от «эффективность», потому что это вроде бы быстрее, чем предыдущие подходы к генерации 3D-объектов). Облака точек легче синтезировать с точки зрения вычислений, но они не фиксируют мелкозернистый объект формы или текстуры. Это ключевое ограничение Point-E в настоящее время.
Чтобы обойти это ограничение, команда Point-E научила дополнительную систему искусственного интеллекта преобразовывать облака точек Point-E в сети — наборы вершин, ребер и граней, которые определяют объект и обычно используются в 3D-моделировании и дизайне. Но в статье они отмечают, что модель может иногда пропускать определенные части объектов, что приводит к «блочным» или искаженным формам.
Помимо отдельно стоящей модели генерации сеток Point-E состоит из двух моделей: модели «текст-в-рисунок» и модели «рисунок-в-3D». Модель преобразования текста в изображение похожа на такие генеративные художественные системы, как собственные DALL-E 2 и Stable Diffusion от OpenAI. Она была обучена на специальных изображениях, чтобы понять связи между словами и визуальными понятиями. Модели преобразования изображения в 3D, с другой стороны, были «скормлены» наборы изображений в паре с 3D-объектами, чтобы модель научилась эффективно переходить между ними.
При получении текстовой подсказки — например, «шестеренка для 3D-печати, одна шестеренка диаметром 3 дюйма и толщиной полдюйма» — модель преобразования текста в изображение создает синтетический визуализированный объект, подаваемый в модель «рисунок-в-3D», которая в свою очередь уже создает облако точек.
Работает это пока не идеально — модель «рисунок-в-3D» иногда не может понять изображение из модели «текст-в-рисунок», что приводит к форме, не соответствующей текстовой подсказке. Тем не менее, это на порядок быстрее, чем предыдущие самые современные устройства — по крайней мере, по утверждению команды OpenAI.
Исследователи OpenAI отмечают, что облака точек Point-E можно использовать для создания объектов реального мира, например, с помощью 3D-печати. А с дополнительной доработкой и как только модели станут немного более отшлифованными, они также могут найти свой путь в разработке игр и анимации.
OpenAI не первая компания, вступившая в борьбу за разработку 3D-генераторов. Ранее в этом году Google выпустила DreamFusion, расширенную версию Dream Fields, генеративной 3D-системы, которую компания презентовала еще в 2021 году. В отличие от Dream Fields, DreamFusion не требует предварительного обучения — это означает, что она может создавать 3D-репрезентации объектов без 3D-данных.
В настоящее время все взгляды направлены на генераторы 2D-искусства, но искусственный интеллект, синтезирующий 3D-модели, может стать следующим крупным разрушителем отрасли. 3D-модели широко используются в кино и телевидении, дизайне интерьеров, архитектуре и различных областях науки. Архитектурные фирмы используют их, например, для демонстрации предлагаемых зданий и ландшафтов, в то время как инженеры используют модели в качестве проектов новых устройств, транспортных средств и сооружений.
Создание 3D-моделей обычно занимает некоторое время — от нескольких часов до нескольких дней. Устройство искусственного интеллекта, вроде Point-E, могло бы это изменить. Вопрос в том, какие споры об интеллектуальной собственности могут возникнуть со временем. Существует большой рынок 3D-моделей с несколькими интернет-площадками, включая CGStudio и CreativeMarket, которые позволяют художникам и дизайнерам продавать созданный ими контент.
Таким образом, если Point-E приживется и его модели появятся на рынках, художники-моделисты могут протестовать, указывая на доказательства того, что современный генеративный искусственный интеллект во многом заимствует из учебных данных: в случае Point-E — из существующих 3D-моделей. Как и DALL-E 2, Point-E не упоминает и не цитирует исполнителей, которые могли повлиять на его работы. OpenAI оставляет эту проблему на другой день.
По словам исследователей, они ожидают, что Point-E будут свойственны и другие проблемы, такие как предубежденность, унаследованная от учебных данных, а также использование устройства для создания «опасных объектов». Возможно, поэтому они осторожно характеризуют Point-E как «отправную точку», которая, как они надеются, вдохновит на «дальнейшую работу» в области синтеза текста в 3D.
Комментарии