Geração de imagens ganha capacidade de autocorreção

Um ano depois de integrar a geração de imagens diretamente ao seu chatbot principal, a OpenAI lançou o ChatGPT Images 2.0. A atualização representa o que a empresa descreve como uma "mudança de patamar" na forma como modelos generativos interpretam instruções complexas, lidam com textos densos e gerenciam a relação espacial entre objetos dentro de um quadro. Diferentemente das versões anteriores, esta iteração foi construída com capacidades de raciocínio subjacentes, permitindo que o sistema cruze seus resultados com buscas na web para garantir maior precisão.

Da geração aleatória ao instrumento de precisão

A introdução de raciocínio no pipeline visual marca uma mudança de filosofia na geração por IA. Ao permitir que o modelo verifique o próprio trabalho, a OpenAI pretende mitigar a deriva criativa que frequentemente compromete ferramentas de texto para imagem. Esse movimento em direção à autocorreção sugere um futuro em que a IA funcione menos como uma máquina caça-níqueis digital e mais como um instrumento de precisão — capaz de manter coesão visual ao longo de múltiplas iterações, requisito essencial para fluxos de trabalho profissionais como storyboarding e prototipagem de jogos.

Expansão linguística amplia alcance global

Talvez o avanço técnico mais significativo esteja na expansão linguística do modelo. A OpenAI concentrou esforços em escritas não latinas, reportando ganhos substanciais na renderização de japonês, coreano, chinês, hindi e bengali. Para uma tecnologia frequentemente criticada por seus dados de treinamento centrados no Ocidente, essa melhoria na tipografia e nos sinais visuais culturais amplia a utilidade da ferramenta para uma classe criativa global. A atualização está sendo liberada para todos os usuários, sinalizando um novo patamar de referência na interseção entre lógica e estética na mídia generativa.

Com reportagem de Olhar Digital.

Source · Olhar Digital