Meta открыла доступ к ImageBind, генеративному ИИ, который может имитировать человеческое восприятие

Meta открыла доступ к ImageBind, генеративному ИИ, который может имитировать человеческое восприятие - rdd.media 2023

Meta объявила об открытом доступе к ImageBind, инструменту искусственного интеллекта, который произведет революцию в том, как мы прогнозируем взаимосвязи между данными, напоминая человеческое восприятие и восприятие окружающей среды.

В то время как существующие генераторы изображений, такие как MidjourneyStable Diffusion и DALL-E 2, создают визуальные сцены на основе текстовых описаний, ImageBind использует более комплексный подход. Он может связывать текст, изображения / видео, аудио, 3D-измерения (глубина), данные о температуре (тепловые) и данные о движении (из инерциальных единиц измерения) без необходимости обширного предварительного обучения. Это открывает путь для создания сложных сред из простых входных данных, таких как текстовые подсказки, изображения или аудиозаписи, и, возможно, их комбинаций.

Meta открыла доступ к ImageBind, генеративному ИИ, который может имитировать человеческое восприятие - rdd.media 2023

ImageBind — это важный шаг на пути к преодолению разрыва между машинным и человеческим обучением. Находясь в стимулирующей среде, например, на оживленной городской улице, человеческий мозг поглощает сенсорный опыт, позволяя делать выводы об автомобилях, пешеходах, зданиях, погоде и т. д., в основном на бессознательном уровне. Люди и животные эволюционировали, чтобы обрабатывать эти данные для выживания и репродуктивных преимуществ. По мере того, как компьютеры приближаются к возможности имитировать мультисенсорные связи животных, они могут использовать эти связи для создания полноценных сцен на основе ограниченных фрагментов данных.

В то время как существующие инструменты, такие как Midjourney, могут генерировать относительно реалистичные изображения причудливых сцен на основе текстовых подсказок, мультимодальные инструменты искусственного интеллекта, такие как ImageBind, могут создавать видео с соответствующими звуками, детализированным окружением, колебаниями температуры и точным позиционированием элементов в сцене.

Смотрите также:  Spotify добавил в приложение ИИ-диджея с реалистичным голосом

Это открывает возможности для анимации статичных изображений путем объединения их со звуковыми подсказками. Например, изображение можно объединить с будильником и кукареканьем петуха, а звуковые подсказки можно использовать для сегментации и анимации петуха или звука будильника в видео.

Помимо творческих приложений, ImageBind отвечает основным амбициям Meta в области виртуальной реальности (VR), смешанной реальности и метапространства. В будущем компания намерена создать гарнитуры, способные динамически конструировать полностью реализованные 3D-сцены со звуком и движением.

Разработчики игр также могут извлечь выгоду из этой технологии, упростив процесс проектирования. Создатели контента смогут создавать видеоролики с реалистичным саундтреком и движениями, используя только текст, изображения или аудиовход. Кроме того, ImageBind может улучшить доступность за счет создания мультимедийных описаний в режиме реального времени, чтобы помочь людям с нарушениями зрения или слуха более эффективно воспринимать окружающую среду.

Tags: