30-секундное резюме:
- SEO-специалисты всегда находятся в поиске инновационных технологий, которые могут помочь им эффективно создавать контент.
- Одной из таких инноваций, которая вот-вот станет следующей большой прорывом в SEO и создании контента, является DALL-E 2 от OpenAI.
- Что это такое, как это работает и как SEO-специалисты могут его использовать (или хотя бы начать с ним экспериментировать)?
Вы когда-нибудь хотели почувствовать себя Сальвадором Дали? Может быть, даже создать маленького симпатичного робота, похожего на ВАЛЛ-И? Ваши мечты вполне могут сбыться благодаря недавнему развитию технологии, лежащей в основе искусственного интеллекта. Если это звучит интересно, давайте углубимся в эту тему. Давайте поговорим о DALL-E 2.
Окей, Google, что делает ИИ?
Искусственный интеллект (ИИ) направлен на создание уникальных алгоритмов, способных вести себя как люди в конкретных ситуациях — распознавать человеческую речь и различные объекты, писать и читать тексты и тому подобное. Эта технология уже намного опережает возможности человека во многих сферах, связанных с обработкой данных. До недавнего времени ИИ вторгался в основном в области, связанные с техническими задачами — предиктивной аналитикой, роботизацией, распознаванием изображений и речи. Сегодня ИИ превосходит людей на 40 процентов на мелочи.
Но может ли ИИ взять на себя и творческие функции? Кажется, это последняя область, которую освоили нейронные сети. Искусство — это сложное сочетание мастерства, творчества и эстетического вкуса, которые являются очень человеческими элементами. Однако в апреле 2022 года группа OpenAI доказала обратное, выпустив мощный конвертер текста в изображение, ОТ – 2, который может превратить любой текстовый заголовок в визуальную презентацию, которой раньше не существовало. Его наиболее выигрышная особенность заключается в том, что инструмент может точно и логично передавать отношения между отображаемыми объектами.
Что такое ДАЛЛЕ-2?
Эта нейронная сеть была создана OpenAI. Первоначально это была GPT-2, технология, мог работать с языками – отвечать на вопросы, дополнять текст, анализировать содержание и делать выводы. Он был улучшен до GPT-3 — его возможности расширились за пределы текстовой информации и позволили работать с изображениями.
Уже в январе 2021 года за этой технологией последовала ее новая умопомрачительная версия, которая могла строить связь между текстом и изображениями. Эта нейронная сеть получила название DALLE. Самое замечательное, что он может придумывать не только известные нам предметы, но и производить совершенно новые комбинации, создавая предметы, не существующие в природе. Простыми словами, DALLE — это преобразователь, состоящий из декодера, который обрабатывает последовательность из 1280 токенов. Это 256 текстовых токенов и 1024 токена части изображения. Алгоритм обрабатывает области изображения так же, как слова в тексте, и генерирует новые изображения так же, как GPT-3 генерирует новый текст. В 2022 году проект был масштабирован до ДАЛЛЕ-2. Улучшенная версия создает изображение только из текстовой подсказки.
Как работает ДАЛЛЕ-2?
Это не первая попытка создать систему преобразования текста в изображение. Однако возможности ДАЛЛЕ-2 намного шире. Эта нейронная сеть может эффективно связывать текстовые и визуальные абстракции и обеспечивать реалистичное изображение. Как система узнает, как тот или иной объект взаимодействует с окружающей средой? Алгоритм довольно сложно объяснить в деталях. Тем не менее, примерно он состоит из нескольких этапов и использует другие модели OpenAI — CLIP (предварительное обучение контрастному языку и изображению) и GLIDE (управляемое преобразование языка в изображение для генерации и редактирования).
- Сопоставление описания изображения с его пространственным представлением с помощью текстового кодировщика CLIP. CLIP обучается на сотнях миллионов изображений и связанных с ними подписей, выясняя, как конкретный фрагмент текста относится к изображению. Модель не предсказывает подпись, а узнает, как она связана с изображением. Такой сравнительный подход позволяет установить связь между текстовым и визуальным представлениями одного и того же абстрактного объекта. Этот этап имеет решающее значение для создания изображений нейронной сетью.
- Кодирование CLIP-обученного изображения. Следующей задачей является создание образа, детали которого были предложены CLIP. Теперь DALLE-2 использует модифицированную версию другой модели OpenAI, GLIDE, для создания этого изображения. Он основан на диффузионной модели — данные генерируются путем обращения вспять процесса постепенного зашумления изображения. Процесс обучения дополняется дополнительной текстовой информацией, что в итоге приводит к созданию более точных изображений.
На основании вышеизложенного DALL-E 2 может генерировать семантически согласованные изображения, которые органично вписываются в любой объект в окружающем пространстве.
ДАЛЛЕ-2 для SEO
Огромный потенциал генерации изображений с помощью ИИ сразу же привлек внимание SEO-специалистов. Они тратят много времени на поиск подходящих картинок для поддержки своего текстового содержания. Однако становится все труднее изобретать что-то, что не было бы просто скопировано и сшито из Интернета. Так что ДАЛЛЕ-2 может стать отличным источником нескончаемого потока совершенно уникальных и нестандартных изображений. Интересно, что у пользователей будут эксклюзивные права на использование созданных ими изображений, в том числе в коммерческих целях.
Как это может помочь SEO
Сегодня продвижение сайта и контента невозможно без привлекательного визуального оформления. Изображения повышают ценность ваших усилий по SEO — ваш сайт привлекает больше пользователей и становится более доступным. Но поиск достаточного количества подходящих изображений всегда был головной болью. ДАЛЛЕ-2 легко решает эту задачу. Вам просто нужно распечатать описательную подсказку вашего будущего изображения, и ИИ выдаст результат. Текст не должен превышать 400 символов. Но пользователи должны быть готовы немного потренироваться, чтобы создавать явные запросы. Очень желательно изучить Быстрая книга и освойте основы, чтобы избежать странных результатов. Вы узнаете самые ценные советы о том, как получить максимальную отдачу от этого фантастического генератора изображений.
Если вы хотите дополнительно автоматизировать создание имиджа процесс этот инструмент позволит вам создать подсказку, которую можно использовать на DALLE-2.
Примеры использования (сообщения в блогах, изображения продуктов, дизайны, цифровое искусство, эскизы)
Алгоритмы ИИ уже использовались в SEO ранее для именования объектов на изображениях и создания для них описаний на основе данных. С DALLE-2 этот процесс переворачивается, и теперь вы можете создавать изображения на основе текстовых подсказок. Независимо от того, ведете ли вы онлайн-блог или магазин, вам нужно много визуальных материалов для привлечения новых клиентов и подписчиков. А DALLE-2 можно успешно интегрировать в любой проект, где вам нужны графические дополнения — создавайте иллюстрации для постов в блоге, описания товаров, эскизы дизайна и многое другое. Более того, вы можете дополнительно модифицировать уже созданные изображения.
Вы уже можете увидеть несколько успешных вариантов использования DALLE-2.
- Оптимизация миниатюр блога. Миниатюры блога Deephaven были заменены изображениями, полностью сгенерированными DALLE-2. Потребовалось пару минут и несколько подсказок на изображение, чтобы получить желаемый результат. Однако это значительная экономия времени по сравнению с тем, что было бы потрачено на поиск стоковых изображений. Приятным бонусом является то, что изображения, созданные DALLE-2, полностью уникальны и запоминаются.
- Развитие дизайна. ДАЛЛЕ-2 может стать эффективным инструментом в область дизайна. И кажется, что его возможности безграничны. Например, был сделан снимок существующего сада, и через DALLE-2 к нему применили прямоугольный бассейн. Это помогает клиенту представить, как это могло бы выглядеть в реальности.
Для получения дополнительных примеров использования и живых дискуссий в сообществе присоединяйтесь р/с.
Пока пользователи только экспериментируют с DALLE-2, но можно не сомневаться, что вскоре он будет активно применяться в бизнесе, архитектуре, моде и других сферах.
Примеры DALL-E 2
DALL-E 2 запущен в бета-версии с кредитной моделью, открытой для 100 000 пользователей. Еще миллион претендентов ждут одобрения для тестирования этого продукта ИИ. Некоторые пользователи уже поделились своим первым опытом работы с конвертером, и результаты впечатляют. DALL-E 2 обрабатывает самые безумные запросы и предлагает их интерпретацию. Вот несколько примеров:
Грустный бобр в свитере сидит перед экраном и думает о яблоках 😅
— Слава Гримальски (@grimalsk) 29 июля 2022 г.
Подсказка №1
Грустный бобр в свитере сидит перед экраном и думает о яблоках.
Источник: Твиттер
Подсказка №2
Доска для колбасных изделий, плавающая в бассейне на побережье Амальфи.
Источник: Твиттер
Подсказка №3
«Капитолий штата Коннектикут как картина маслом Матисса с использованием пурпура и нефрита». #долле2 @BetterLegal
Художественное оформление для алгоритмического SEO выходит на новый уровень! pic.twitter.com/64kKRY2Hpt
— Чад Сакончик (@csakon) 27 июля 2022 г.
Источник: Твиттер
Подсказка №4
Человек в скафандре, идущий по Марсу рядом с создателем с высохшей травой и остатками Вояджера.

Источник: LinkedIn
Подсказка №5
Украинка на поле убирает урожай.
2 дня назад мне исполнилось 30. Я использую эту возможность, чтобы собрать деньги и помочь #Украина победить. Я знаю, что чашка кофе (5 долларов) может спасти жизнь, и надеюсь, что #TwitterСемья может помочь мне с этим. Цифровое искусство, созданное #долле2 pic.twitter.com/wEQb6gouRI
— Дима Макей 🇺🇦 (@dima_makei) 9 августа 2022 г.
Источник: Твиттер
Вывод
DALL-E 2 — революционный на сегодняшний день конвертер текста в изображение. Это поможет вам мгновенно создавать множество уникальных изображений с помощью короткой текстовой подсказки за гораздо более короткие промежутки времени, чем вы потратили бы на фотостоки. Эта технология полностью меняет правила игры и может многое изменить в SEO в ближайшие годы. Тем не менее, чтобы в полной мере воспользоваться преимуществами DALL-E 2, требуется дополнительное тестирование в реальном времени.
Дима Макей является руководителем отдела SEO в Omnicom Media Group. Он также увлечен преподаванием и ранее работал профессором маркетинга в Seneca College. Найдите его в Твиттере @dima_makei.
Подпишитесь на информационный бюллетень Search Engine Watch, чтобы получать информацию о SEO, поисковой среде, поисковом маркетинге, цифровом маркетинге, лидерстве, подкастах и многом другом.
Присоединяйтесь к разговору с нами на LinkedIn а также Твиттер.