OpenAI aposta em raciocínio visual com o ChatGPT Images 2.0

A OpenAI apresentou o ChatGPT Images 2.0, posicionando a atualização não como uma melhoria incremental de fidelidade, mas como a estreia de um "parceiro de pensamento visual". Ao integrar capacidades de raciocínio diretamente ao processo de geração de imagens, o modelo tenta superar a imprevisibilidade que marcou as primeiras gerações de arte por IA. Esse modelo "pensante" agora consegue buscar contexto em tempo real na web, verificar seus próprios resultados e usar uma compreensão mais ampla da lógica do mundo real para preencher lacunas visuais que antes exigiam prompts exaustivos.

Os refinamentos técnicos atacam o persistente "vale da estranheza" do design por IA: relações espaciais e renderização de texto. O Images 2.0 demonstra uma compreensão mais sofisticada de como objetos se relacionam dentro de um enquadramento e é capaz de gerar QR codes funcionais e textos densos e legíveis — uma façanha que há tempos escapava aos modelos de difusão. Essa precisão permite ao modelo capturar melhor as nuances de linguagens visuais específicas, dos grids rígidos da pixel art ao enquadramento cinematográfico de storyboards.

Para fluxos de trabalho profissionais em desenvolvimento de jogos e marketing, a mudança aponta para mais confiabilidade. Em vez de percorrer dezenas de variações "alucinadas", os usuários podem aproveitar a capacidade do modelo de criar múltiplas iterações distintas e logicamente consistentes a partir de um único prompt. Ao posicionar esse modelo contra concorrentes como o Gemini, do Google, a OpenAI claramente deslocou o foco — da pura novidade da geração para a utilidade da lógica visual e da autonomia.

Com reportagem de La Nación.

Source · La Nación — Tecnología

OpenAI aposta em raciocínio visual com o ChatGPT Images 2.0

§ Leia também

A brecha no Claude Mythos

Acesso não autorizado ao modelo Mythos, da Anthropic, é reportado

O candidato algorítmico: como a IA está transformando a busca por emprego