OpenAI выпустила ChatGPT Images 2.0 — генератор изображений с режимом «размышлений»

OpenAI представила новое поколение инструмента для генерации изображений — ChatGPT Images 2.0. Модель gpt-image-2 стала доступна пользователям ChatGPT, Codex и через API после нескольких недель утечек и тестирования. Это первое решение компании, сочетающее генерацию изображений с логическим анализом и возможностью поиска в интернете до начала рендеринга. Новая модель намного лучше предшественников обрабатывает текст, что позволяет создавать полноценные макеты с правильной типографикой.
Новая модель приходит на смену GPT Image 1.5, дебютировавшей в декабре 2025 года. Ее главное отличие — переход от простого создания картинок к полноценному «творческому движку». Теперь система способна не только генерировать изображение по запросу, но и уточнять результат в несколько этапов, анализировать входные данные и самостоятельно проверять качество итоговой работы.
Ранее все модели обработки изображений воспринимали текст как разновидность текстуры. Они запоминали, как выглядят буквы, но не понимали смысла слов как отдельных знаков. Именно поэтому GPT-4o, Midjourney V7 и DALL-E 3 часто выдавали плакаты с искажёнными надписями, а сложные макеты превращались в бессмыслицу. ChatGPT Images 2.0 работает иначе: здесь текст обрабатывается как самостоятельная сущность. Модель учитывает орфографию, типографику и структуру, что позволяет создавать полноценные макеты — от меню и постеров до интерфейсов и инфографики.
Система поддерживает расширенные технические возможности: разрешение до 2048 пикселей, гибкие соотношения сторон (от широких баннеров до вертикальных форматов) и генерацию до восьми согласованных изображений в одном запросе. Также появилась возможность экспортировать изображения с прозрачным фоном.
ChatGPT Images 2.0 доступен в двух режимах. Первый — мгновенная генерация. Этот режим включён по умолчанию и выдает результат за считанные секунды. Второй — «режим размышления». Перед генерацией модель анализирует загруженные файлы (PDF, скриншоты, гайды по стилю), ищет информацию в интернете, продумывает структуру изображения и перепроверяет собственные результаты. Обработка сложного запроса может занять до двух минут. Именно этот режим позволяет создавать последовательные слайды, раскадровки и инфографику, где важна логика и связность элементов. Например, на запрос «разработать презентацию из четырёх слайдов, объясняющую квантовое туннелирование» модель выдаст четыре связных слайда с последовательным дизайном, а не четыре случайных изображения, объединенных общей темой.

Еще одной функцией стали рабочие QR-коды. В отличие от предыдущих моделей, которые создавали лишь визуальное подобие, новая система генерирует коды, пригодные для сканирования. Это стало возможным благодаря предварительным вычислениям на этапе анализа. Модель также может стилизовать QR-код в соответствии с фирменными цветами, встроить логотип и разместить код внутри разработанного плаката. Это сводит три этапа, генерацию QR-кода, дизайн и вёрстку, в один.
ChatGPT Images 2.0 также лучше обрабатывает языки, включая японский, китайский, корейский, хинди и бенгальский. Модель корректно работает со смешанными шрифтами и позволяет создавать локализованные визуальные материалы для разных рынков без потери качества.
Модель ChatGPT Images 2.0 доступна всем пользователям ChatGPT, включая бесплатный тариф, однако расширенные функции, такие как «режим размышления» с анализом и веб-поиском, открыты только для подписчиков Plus, Pro и Business.

