O ecossistema Nvidia como gargalo

Durante boa parte do atual ciclo de IA generativa, os modelos mais avançados ficaram essencialmente confinados ao ecossistema Nvidia. Os kernels especializados e as operações dependentes de CUDA exigidos por tarefas complexas — como converter uma única imagem 2D em uma malha 3D de alta fidelidade — tornam essas ferramentas inacessíveis para quem não dispõe de um servidor dedicado ou de uma assinatura cara de computação em nuvem.

Centenas de linhas reescritas para rodar no Mac

Uma nova adaptação do modelo TRELLIS.2, da Microsoft, compartilhada recentemente pelo desenvolvedor Shivam Kumar, desafia essa hegemonia de hardware. Ao reescrever várias centenas de linhas de código para substituir operações específicas de CUDA por alternativas em PyTorch puro, Kumar viabilizou a execução do modelo de 4 bilhões de parâmetros no Apple Silicon. A implementação troca kernels proprietários de convolução esparsa e operações de hashmap por equivalentes nativos em Metal Performance Shaders (MPS), permitindo que o modelo funcione inteiramente offline em hardware Mac.

Desempenho limitado, mas significado amplo

O desempenho em um chip M4 Pro — cerca de três minutos e meio para gerar uma malha de 400 mil vértices — é modesto se comparado aos resultados quase instantâneos de uma H100 de nível corporativo. Ainda assim, a mudança é significativa. Ela representa um passo rumo à computação local e soberana para designers e desenvolvedores. Ao eliminar a dependência de clusters remotos, a adaptação demonstra que até tarefas generativas de alto consumo de recursos começam a encontrar espaço mais acessível no desktop.

Com reportagem de Hacker News.

Source · Hacker News