Novo gerador de imagens da OpenAI ganha busca na web e capacidade de "raciocínio"

A OpenAI apresentou o ChatGPT Images 2.0, uma atualização de seu motor de síntese visual que incorpora as capacidades de "raciocínio" presentes em seus modelos de linguagem mais recentes. Diferentemente das versões anteriores, que dependiam exclusivamente de dados de treinamento estáticos, o novo sistema pode acessar a web em tempo real para alimentar seu processo criativo. A integração permite que o modelo verifique detalhes do mundo real ou eventos atuais antes de converter um prompt de texto em pixels, buscando um grau mais alto de precisão contextual.

A atualização também introduz uma abordagem mais iterativa para a geração de imagens. Ao aplicar etapas de "raciocínio" ao processo de geração, o modelo agora consegue produzir uma série de imagens relacionadas a partir de um único prompt, mantendo maior consistência ao longo de uma sequência. A mudança sugere um afastamento do estilo de geração "one-shot" das primeiras ferramentas de IA em direção a um fluxo de trabalho mais deliberado e agêntico — que imita a forma como um designer humano pesquisaria um tema antes de começar a criar.

Além de melhorias meramente estéticas, a nova versão foca no "seguimento de instruções" — a capacidade de atender a solicitações complexas e com múltiplas partes, que frequentemente confundem modelos menos sofisticados. Ao combinar busca na web e raciocínio interno, a OpenAI posiciona a ferramenta não apenas como um gerador de arte inédita, mas como um instrumento mais preciso para design profissional e trabalho conceitual.

Com reportagem de The Verge.

Source · The Verge