Подсказки с По во время полета

Подсказки с По в полете

Poe – это платформа, предоставляющая доступ к множеству чат-ботов и LLM-моделей – как одновременно, так и по отдельности – через единый интерфейс. Помимо обычных LLM-моделей, таких как ChatGPT, Llama и других, у Poe есть доступ к множеству настроенных чат-ботов, таких как те, которые перефразируют ваш ввод в эмодзи; не проявляют интереса к тому, о чем вы спрашиваете (правда); считают все, что вы делаете, преступлением; и многое другое. Сайт имеет как бесплатные, так и платные подписки. Poe была создана Quora.

Midjourney – это платный сервис генерации изображений с помощью искусственного интеллекта. Считается, что это наиболее мощная модель, обеспечивающая высокое качество сгенерированных изображений на данный момент. Создание идеальных запросов для Midjourney и получение наилучших результатов – это само по себе искусство, которое часто требует множества итераций и времени. Именно здесь появляется Poe.

Один из наиболее популярных ботов на Poe – это бот Midjourney. Нет, этот бот не предоставляет доступ к моделям Midjourney; вместо этого он берет ваш первоначальный запрос и переписывает его, чтобы увеличить ваши шансы на генерацию приемлемых изображений уже с самого начала.

В этой статье мы попробуем несколько итераций этого процесса и сравним результаты, чтобы понять, как этот бот Poe может помочь нам улучшить наши изображения с самого начала.

Для каждого из этих сравнений автор выполнил только показанные ниже сравнения, выполнил ровно одну генерацию изображения для каждого запроса и не отбирал результаты никаким образом. Все субъективные оценки были сделаны только автором. Обратите внимание, что Poe может добавить к своему новому запросу дополнительные параметры Midjourney, чтобы обеспечить наилучшее сравнение. Я добавил --ar 16:9 ко всем запросам, так как соотношение сторон 16:9 является единственно приемлемым, и это все.

Старый город Иерусалима

Начнем с одного из самых узнаваемых мест на планете: Старого города Иерусалима. Мне не нужно что-то конкретное, никаких особых достопримечательностей, я просто хочу изображение, которое представляет и напоминает характерный вид Старого города.

Мой базовый запрос и результаты:

абстрактное художественное изображение Старого города Иерусалима –ar 16:9

Poe-помощник запроса и результаты:

цветное фото абстрактного художественного изображения Старого города Иерусалима. Тема – это яркое и динамичное толкование древнего города, отражающее его богатую историю и духовное значение. Фотография демонстрирует множество смелых мазков кисти и ярких цветов, вызывая ощущение энергии и движения. Окружающая атмосфера пропитана мистикой, с узкими улочками, древними стенами и оживленными рынками, все объединяющимися в гармоничный хаос. Используются экспериментальные и авангардные настройки камеры, которые выходят за рамки традиционной фотографии. Используется камера Hasselblad X1D II 50C в сочетании с объективом Lensbaby Velvet 56, что позволяет создавать эффекты креативного размытия и мягкой фокусировки. Применяются техники двойной экспозиции и целенаправленного движения камеры, чтобы добавить этеричности и сновидческого качества к изображению. Необычные соавторы для этой сцены могли бы быть Алехандро Гонсалес Иньярриту, видоизменяющий режиссер, известный своим погружающимся повествованием, Эммануэль Лубески, признанный кинематографист, знаменитый своими поэтическими визуальными образами, Дэвид ЛаШапель, провокационный фотограф, известный своими сюрреалистическими и яркими композициями, и Ирис ван Херпен, инновационный модельер, признанный за свои футуристические и скульптурные дизайны –ar 16:9

Во-первых, обратите внимание на то, насколько более подробным является запрос, сгенерированный Poe. Обратите внимание на некоторые детали, включая спорное использование фразы “в стиле”.

Теперь, вы можете закрыть мне глаза, и я примерно смогу ориентироваться в Старом городе Иерусалима, и я могу сказать вам, что ни одно из сгенерированных изображений не соответствует действительному местоположению там. Но мы не можем оценивать сгенерированные изображения по этой метрике; вместо этого мы должны использовать субъективные стандарты художественной ценности.

Примечание: Хотя вы можете возразить против использования термина “художественная ценность” (или “художественный” вообще) при обсуждении AI-сгенерированных изображений, я считаю, что это лучшее слово, чтобы выразить то, что я пытаюсь донести в этом сценарии. Расстроены? Представьте, что я написал “мимикрирующая художественная ценность”. Все равно расстроены? Что ж, AI-сгенерированные изображения уже здесь и они здесь надолго, и хотя разумные люди могут не соглашаться о том, как мы обозначаем процесс и конечные результаты генерации изображений с помощью искусственного интеллекта, это не обсуждение, которое я хочу вести здесь и сейчас. Я просто демонстрирую, как люди, склонные попытаться улучшить свои запросы для генерации изображений с помощью искусственного интеллекта, могут попытаться это сделать.

Я считаю, что оригинальные изображения немного скучные, не привлекают мое внимание за исключением первого взгляда. Второй набор, с помощью По, более яркий и заслуживает дополнительного изучения за один взгляд, по крайней мере, по моему мнению. Красота в глазах смотрящего и все такое, поэтому мнения здесь будут различаться, но я выбрал верхнее правое изображение в обоих случаях в качестве “лучшего” представителя для обоих запусков генерации изображений. Я увеличил масштаб обоих и делюсь ими ниже.

 

   

Опять же, это полностью субъективно, но в конечном итоге я больше впечатлен “лучшим” результатом с использованием подсказки По. В заключение, я считаю, что изображения, сгенерированные подсказкой По, в целом лучше, чем изображения, сгенерированные исходной подсказкой, и я также считаю, что лучший результат По превосходит лучший результат исходной подсказки.

 

Профессиональное фото

 

Давайте попробуем что-то другое, некоторые изображения с людьми. Давайте сгенерируем несколько профессиональных фотографий.

Моя простая подсказка:

 

профессиональное фото женщины на улице

 

 

Сравните их с расширенной подсказкой По:

 

цветное фото профессиональной фотографии женщины на улице. Субъект – уверенная и элегантная женщина, испускающая профессионализм и изящество среди городского фона. Ее портретная фотография показывает ее сияющую улыбку и теплую личность, демонстрируя ее доступность и профессионализм. Окружение – оживленная городская улица с размытыми пешеходами и движением на заднем плане, подчеркивая женщину в качестве главной точки. Настройки камеры тщательно выбраны для выделения ее особенностей и передачи ее сущности. Используется Nikon D850 в паре с портретным объективом, например Nikon AF-S NIKKOR 85mm f/1.4G, для достижения мелкой глубины резкости и создания приятного эффекта боке. Фотография оформлена с сбалансированным композиционным решением, используя ведущие линии окружающей архитектуры, чтобы добавить визуальный интерес. Неожиданными соавторами для этой сцены могли бы быть София Коппола, известная режиссер своими интимными историями, Дариус Хонджи, известный кинематографист, поклоняемый его атмосферному освещению, Энни Лейбовиц, иконический фотограф, знаменитый своими завораживающими портретами, и Стелла Маккартни, влиятельный модельер, признанный своими вечными и экологически устойчивыми дизайнами

 

 

Опять же, сравните различия между деталями формулировки подсказки. Теперь, оставив в стороне факт, что все сгенерированные женщины, кажется, белые, что заслуживает отдельного обсуждения, вот 2 “лучших” изображения на мой взгляд, одно из каждой подсказки.

  Примечание: В целях прозрачности, из любопытства я запустил подсказку По еще 4 раза после этого, и из 16 дополнительных несуществующих женщин, которые она сгенерировала, 5 оказались не белыми. Делайте с этой информацией, что хотите, но я считал, что стоит попробовать и сообщить о результатах.  

“Лучшее” изображение из тех, которые сгенерированы Midjourney с использованием простой подсказки  

“Лучшее” изображение из тех, которые сгенерированы Midjourney с использованием подсказки По  

Опять же, я считаю, что подсказки с помощью По выглядят более реалистично. Они кажутся более “естественными”, и определение того, что они созданы искусственным интеллектом, занимает немного больше времени, чем в случае с изображениями на основе простой подсказки. Освещение и аспекты на открытом воздухе кажутся более естественными, и хотя разница незначительна, я бы сказал, что немного лучше в процентном соотношении.

 

Вывод

 

Возможно, эту статью следовало бы назвать “Удивительные подсказки Midjourney с По???“. Думаю, что мнение о том, помогает ли вам этот бот По определенно создавать лучшие подсказки для генерации изображений, и насколько? – вполне может быть под вопросом, хотя это определенно не решается с помощью единственной пары примеров. Я склонен немного больше нравиться подсказкам с помощью По, чем простым подсказкам, но, еще раз, это и субъективно, и решение, принятое на основе очень малого количества данных. Возможно, главные идеи должны быть в том, что инженерия подсказок – это сложное и непостоянное дело, и искусство (как реальное, так и созданное искусственным интеллектом) слишком субъективно, чтобы определить, когда что-то лучше, чем что-то другое.

Попробуйте Poe для своих собственных проектов по созданию изображений и посмотрите, как он работает для вас.

    Мэтью Майо (@mattmayo13) имеет степень магистра в области компьютерных наук и диплом выпускника по добыче данных. В качестве главного редактора VoAGI Мэтью стремится сделать сложные концепции науки о данных доступными. Его профессиональные интересы включают обработку естественного языка, алгоритмы машинного обучения и исследование новых направлений искусственного интеллекта. Его движет миссия демократизации знаний в сообществе науки о данных. Мэтью начал писать код, когда ему было 6 лет.