Blog / AI

Modelos de IA baseados em difusao explicados: como funcionam e por que de repente sao tao rapidos

Escrito por

Alicia Kirana Utomo

Revisado por

Katelin Teen

Última edição June 17, 2026

Verificado por especialista

Ilustracao de ruido disperso e blocos mascarados que se transformam em linhas limpas de texto, com um cronometro sinalizando velocidade

TL;DR

Os modelos de IA baseados em difusao mudam a forma como a geracao funciona. Em vez de escrever uma palavra apos a outra, eles partem de ruido ou de espacos reservados mascarados e refinam todo o resultado em paralelo ao longo de algumas passagens de remocao de ruido. E a mesma ideia por tras de ferramentas de imagem como o Stable Diffusion, agora adaptada para texto.

O destaque e a velocidade. Modelos de linguagem por difusao como o Mercury da Inception e o Gemini Diffusion do Google rodam a cerca de 1.000 a 1.500 tokens por segundo, aproximadamente 10x mais rapido do que modelos autorregressivos otimizados para velocidade no mesmo hardware. Eles tambem conseguem revisar tokens anteriores e preencher o meio de uma sequencia, algo que os modelos padrao da esquerda para a direita nao conseguem.

O porem: eles ainda ficam atras de modelos autorregressivos como o GPT e o Claude em raciocinio dificil e contexto longo, e o ecossistema e jovem. Por enquanto, a jogada inteligente e o roteamento, nao a substituicao. E se voce administra uma equipe de suporte, a arquitetura importa muito menos do que o conhecimento, as salvaguardas e as integracoes que envolvem o modelo.

O que e um modelo de IA baseado em difusao?

Um modelo de difusao e um modelo generativo que aprende a construir dados revertendo um processo gradual de adicao de ruido. A ideia vem da fisica: voce define uma cadeia de etapas que adicionam lentamente ruido aleatorio a dados reais e, em seguida, treina uma rede para reverter esse processo e reconstruir amostras a partir do ruido. O trabalho fundacional e o de Sohl-Dickstein et al. (2015) e o artigo de 2020 sobre modelos probabilisticos de difusao com remocao de ruido.

Ha duas metades. No processo direto, voce pega uma imagem real e adiciona um pouco de ruido gaussiano repetidamente, ate que ela se torne pura estatica. Essa parte nao requer aprendizado; sua unica funcao e fabricar pares de treinamento. No processo reverso, uma rede neural aprende a desfazer uma etapa de ruido por vez. No momento da geracao, voce parte de ruido aleatorio e executa a rede repetidamente, cada passagem removendo um pouco mais ate que surja um resultado coerente.

Aqui esta a intuicao que faz tudo se encaixar. Imagine filmar uma escultura de gelo derretendo ate virar uma poca e depois rodar o filme de tras para frente: partindo de uma poca disforme e, quadro a quadro, recongelando-a de volta na escultura. Como o modelo trabalha em toda a tela a cada etapa, ele pode continuar corrigindo erros anteriores ao longo do caminho.

Esta e a tecnica que alimenta a maioria das geracoes modernas de imagem, video e audio. A difusao esta por tras de Sora, Midjourney e Riffusion, junto com o DALL-E 2, o Imagen e o Stable Diffusion. O fio condutor: todos partem de ruido e removem o ruido iterativamente em direcao a um resultado, guiados pelo seu prompt.

Como os LLMs autorregressivos geram texto

Para entender por que a difusao e um marco para texto, voce precisa do contraste. Quase todo modelo de linguagem grande que voce ja usou, incluindo ChatGPT, Claude, Gemini e Llama, e um modelo autorregressivo. Ele gera texto da esquerda para a direita, um token por vez, e um token nao pode ser produzido ate que tudo antes dele exista.

Duas consequencias decorrem desse design, e ambas importam para a comparacao:

A latencia e sequencial. Produzir cada token requer uma passagem completa por bilhoes de parametros, entao resultados longos (pense em longas cadeias de raciocinio) inflam diretamente quanto tempo voce espera e quanto paga.
Nao ha como voltar atras. Uma vez que um token foi emitido, ele esta fixo. O modelo nao pode revisar uma palavra anterior a luz de uma posterior. Esse habito unidirecional e apontado como causa de peculiaridades como a maldicao da reversao, em que um modelo sabe que "A e B" mas tropeca em "B e A".

A vantagem e que o resultado de comprimento variavel e facil: o modelo simplesmente emite um token de fim de sequencia quando termina. Essa flexibilidade e uma das razoes pelas quais a autorregressao se manteve dominante para texto.

Como os modelos de linguagem por difusao geram texto de forma diferente

Os modelos de linguagem por difusao (dLLMs) adaptam a receita das imagens para o texto. Em vez de pixels a partir de ruido, eles fazem tokens a partir de mascaras. O Google DeepMind descreve isso de forma direta: em vez de prever o texto diretamente, o modelo aprende a gerar resultados refinando o ruido passo a passo, de modo que pode iterar sobre uma solucao rapidamente e corrigir erros durante a geracao.

Como um modelo de linguagem por difusao escreve texto: partindo de espacos reservados totalmente mascarados, fixando palavras com alta confianca, refinando o restante em paralelo e chegando a uma resposta final

A abordagem dominante para texto e a difusao mascarada. No LLaDA, um modelo de difusao aberto de 8B, o processo direto mascara tokens e o processo reverso usa um "preditor de mascara" baseado em transformer para preencher todos os tokens mascarados de uma vez, simulando a difusao do estado totalmente mascarado de volta ao texto totalmente escrito. Uma linha anterior, o Diffusion-LM, usava difusao continua sobre vetores de palavras.

A principal diferenca e a decodificacao paralela. Um dLLM gera tokens em paralelo em vez de um por vez, e o transformer subjacente pode modificar varios tokens de uma vez para melhorar globalmente a resposta. Como a formulacao e nao autorregressiva, ela tambem permite a geracao em qualquer ordem: o modelo pode fixar primeiro as palavras de que tem certeza em qualquer ponto da sequencia e depois preencher o restante.

Uma das explicacoes mais claras veio, na verdade, de um desenvolvedor no Hacker News, cortando a confusao do tipo "a difusao substitui os transformers":

"Apesar do nome, os LMs de difusao tem pouco a ver com a difusao de imagens e estao muito mais proximos do BERT e da boa e velha modelagem de linguagem mascarada... para gerar algo do zero, voce comeca alimentando o modelo com todos os [MASK]s... em 10 etapas voce tera gerado uma sequencia inteira." nvtop, na discussao sobre o Gemini Diffusion no Hacker News

Essa visao paralela e bidirecional tambem e o motivo pelo qual um modelo de difusao consegue enxergar o contexto em ambos os lados de uma lacuna. O LLaDA, por exemplo, supera o GPT-4o em uma tarefa de completar poemas reversos, superando a maldicao da reversao que derruba os modelos da esquerda para a direita.

Autorregressivo vs difusao: a diferenca central

Se voce guardar uma imagem deste post, que seja esta. Modelos autorregressivos constroem uma frase como uma corrida de revezamento, cada palavra passando o bastao para a proxima. Modelos de difusao a constroem como revelar uma Polaroid, com a imagem inteira aparecendo de uma vez e ficando mais nitida a cada passagem.

Comparacao entre a geracao autorregressiva, em que as palavras sao produzidas uma de cada vez em sequencia, e a geracao por difusao, em que a sequencia inteira e refinada em paralelo

Veja como as duas se comparam nas dimensoes com que um comprador realmente se importa:

Dimensao	Autorregressivo (GPT, Claude, Gemini)	Difusao (Mercury, Gemini Diffusion)
Ordem de geracao	Da esquerda para a direita, um token por vez	Sequencia inteira em paralelo, em qualquer ordem
Velocidade	Dezenas a ~200 tokens/seg	~1.000 a ~1.500 tokens/seg
Pode revisar tokens anteriores?	Nao, uma vez emitido fica fixo	Sim, ao longo das passagens de remocao de ruido
Edicao e preenchimento	Desajeitado (apenas anexa)	Natural (condiciona-se aos dois lados)
Raciocinio dificil	Mais forte hoje	Fica atras, especialmente em escala de fronteira
Contexto longo	Mais eficiente (reutiliza o cache KV)	Mais fraco (recalcula a atencao a cada passagem)
Comprimento do resultado	Variavel, flexivel	Frequentemente blocos de comprimento fixo
Maturidade do ecossistema	Cinco anos de ferramentas	Inicial, em rapida evolucao

Note a simetria: as vitorias da difusao (velocidade, revisao, preenchimento) e suas derrotas (profundidade de raciocinio, contexto longo, maturidade) remontam todas a mesma causa raiz. Trabalhar na sequencia inteira em paralelo e o que a torna rapida e editavel, e tambem o que torna o contexto longo e o raciocinio passo a passo mais dificeis.

O ganho de velocidade, e o porem

Os numeros de velocidade sao genuinamente impressionantes, e nao sao apenas marketing. O desenvolvedor e blogueiro de LLM Simon Willison saiu da lista de espera do Gemini Diffusion e o testou:

"A funcionalidade principal, entao, e a velocidade. Consegui passar pela lista de espera e acabei de testa-lo e uau, eles nao estavam brincando quando disseram que e rapido." Simon Willison, primeiras impressoes do Gemini Diffusion

Veja como o throughput se compara entre alguns modelos, com as referencias autorregressivas para contexto:

Modelo	Tipo	Throughput (tokens/seg)	Fonte
Gemini Diffusion	Difusao	~1.479 (excl. overhead)	Fornecedor
Mercury 2 (Inception)	Difusao	~1.196 pico	Artificial Analysis
Mercury Coder Mini	Difusao	1.109	Fornecedor, corroborado pela AA
Gemini 2.0 Flash-Lite	Autorregressivo	~201	Segundo a Inception
Claude 4.5 Haiku	Autorregressivo	~89	Segundo a Inception
GPT-5 Mini	Autorregressivo	~71	Segundo a Inception

Duas coisas para manter a honestidade aqui. Primeiro, a maioria dos numeros de throughput e medida em uma NVIDIA H100 e muitos sao alegacoes dos fornecedores; a Artificial Analysis e a principal fonte independente, e ela corroborou a velocidade do Mercury, mas ainda nao sua qualidade. Segundo, a vantagem de velocidade e real, mas condicional. A geracao de alta qualidade geralmente precisa de muitas etapas de remocao de ruido, e cortar etapas de forma ingenua degrada a qualidade drasticamente, entao a velocidade precisa ser gasta com cuidado.

E a diferenca de qualidade ainda e visivel, especialmente em tarefas dificeis. O Gemini Diffusion pontua 40,4% contra 56,5% no GPQA Diamond, e 69,1% contra 79,0% no Global MMLU em relacao ao Flash-Lite, embora lidere em alguns benchmarks de codigo e matematica. A leitura honesta de um engenheiro que trabalha com stacks de agentes em producao vale a citacao, porque nomeia o problema historico diretamente:

"[Os primeiros LMs de difusao] eram rapidos da mesma forma que um relogio quebrado e rapido: nao importa quao rapido voce chega a resposta errada." vainkop, "Mercury 2 and the End of Autoregressive Monopoly"

O veredito dele para as equipes hoje e ponderado: este e um momento de "acompanhar de perto e se preparar para agir rapido", nao de "reescrever sua stack de agentes imediatamente".

Os modelos que lideram a investida

O campo passou de curiosidade de pesquisa a produtos lancados rapidamente. O sinal de financiamento e alto: a Inception Labs, fundada por Stefano Ermon, de Stanford, levantou US$ 50 milhoes em novembro de 2025 de uma lista estrategica que inclui Nvidia, a M12 da Microsoft, Databricks e Snowflake, alem dos investidores-anjo Andrew Ng e Andrej Karpathy. Quando os players de infraestrutura apostam, e porque acham que a velocidade e servivel.

Modelo	Quem	Status	O que se destaca
Mercury / Mercury 2	Inception Labs	API no ar, US$ 0,25 / US$ 0,75 por 1M de tokens	Primeiro LLM de difusao comercial; ~1.196 tok/s
Gemini Diffusion	Google DeepMind	Experimental, lista de espera	Qualidade ~ Gemini 2.0 Flash-Lite a varias vezes a velocidade
DiffusionGemma	Google DeepMind	Pesos abertos (Apache 2.0), junho de 2026	Mistura de especialistas de 26B; >1.000 tok/s, abaixo do Gemma 4 em qualidade
LLaDA 8B	ML-GSAI (pesquisa)	Pesos abertos	MMLU 65,9, aproximadamente igualando o Llama3 8B
Dream 7B	HKU NLP + Huawei	Pesos abertos	Domina tarefas de planejamento (Sudoku 81,0 vs 21,0 do Qwen)

Um esclarecimento rapido, porque os nomes sao confusamente parecidos: "Gemini Diffusion" (fechado, lista de espera) e "DiffusionGemma" (pesos abertos) sao dois lancamentos diferentes do Google. O primeiro e um modelo hospedado experimental mostrado no Google I/O 2025; o segundo e um modelo de 26B disponivel para download lancado em 10 de junho de 2026 sob a licenca Apache 2.0, que gera removendo o ruido de blocos de 256 tokens em paralelo e fica abaixo do Gemma 4 padrao em todos os benchmarks publicados. Velocidade trocada por qualidade, abertamente.

O padrao recorrente em todos esses casos: uma vantagem de throughput de mais de 10x que reduz a diferenca de qualidade em escala pequena e media (LLaDA aproximadamente igualando o Llama3 8B, Mercury competitivo em codigo), mas que ainda aparece na fronteira. O principal caso de uso hoje e a geracao de codigo e loops agenticos de baixa latencia, onde a velocidade da decodificacao paralela se acumula.

Por que os modelos de IA baseados em difusao importam para as empresas

A velocidade nao e uma metrica de vaidade quando voce coloca um modelo dentro de um produto. O enquadramento mais claro vem da experiencia em producao: a latencia em sistemas autorregressivos se acumula em cadeias.

Um modelo de linguagem fica no centro, cercado pelas camadas que decidem a qualidade da resposta: conhecimento e recuperacao, salvaguardas e escalonamento, integracoes de helpdesk e testes e supervisao

Como um engenheiro descreveu, uma unica etapa de agente que chama o modelo tres vezes (raciocinar, planejar, agir) sao tres passagens sequenciais; encadeie algumas dessas e voce chega a sete ou oito segundos, o que "nao e um agente em tempo real, e um trabalho em lote lento". Uma geracao por etapa mais rapida torna viaveis cadeias de agentes de IA mais profundas. O mesmo artigo observa que as equipes atualmente limitam a profundidade da cadeia a tres a cinco etapas para ficar dentro de seu SLA; com inferencia na velocidade da difusao, cadeias de dez etapas comecam a parecer viaveis.

Alguns lugares concretos onde a velocidade compensa:

Chat e copilotos em tempo real. Respostas em menos de um segundo sao, como diz esse engenheiro, "a diferenca entre a adocao e o abandono" de uma camada de assistente em um produto SaaS.
Texto em lote de alto volume. Resumo, classificacao, reformatacao e traducao sao limitados por throughput e paralelizaveis, que e exatamente onde a difusao brilha.
Assistentes de codificacao. A natureza de preenchimento da difusao se encaixa em edicoes de codigo, gerando o inicio e o fim de um bloco na mesma passagem e editando o meio.

Depois ha o custo. A geracao mais rapida no mesmo hardware significa menor custo de inferencia por token, e o cofundador da Inception argumenta que a abordagem "realiza mais computacao por unidade de memoria transferida", o que abre novas formas de reduzir os custos de inferencia de IA em hardware mais antigo. Para equipes que executam centenas de milhares de chamadas de agente por dia, isso se acumula. O preco publico do Mercury 2 de US$ 0,25 por milhao de tokens de entrada e US$ 0,75 por milhao de saida e genuinamente barato.

Mas aqui esta a parte que a maioria das coberturas ignora. Para a maioria das aplicacoes em producao, os modelos autorregressivos continuam sendo o padrao, e por um bom motivo: eles lidam com o contexto longo de forma mais eficiente, raciocinam de forma mais profunda (a difusao faz menos trabalho por token, entao ha menos espaco para "pensar") e tem cinco anos de ferramentas por tras. A jogada pragmatica nao e a substituicao, mas o roteamento: enviar as etapas simples e de alta frequencia (busca, formatacao, classificacao) para um modelo de difusao rapido e reservar os modelos autorregressivos de fronteira para o raciocinio profundo. Compare isso com a economia de agentes de IA versus agentes humanos e o apelo fica obvio: fazer mais do trabalho barato de forma barata.

O que isso significa para o atendimento ao cliente com IA

O atendimento ao cliente parece o caso de uso perfeito para a difusao a primeira vista. O chat ao vivo e os agentes de suporte com IA sao exatamente o cenario de baixa latencia e voltado ao usuario em que a diferenca de um segundo versus varios segundos decide se a experiencia parece responsiva ou lenta. Um modelo mais rapido deveria significar respostas mais ageis no seu chatbot de IA.

Interface de chat da eesel AI mostrando uma conversa fundamentada

A reformulacao que vale a pena considerar: para uma equipe de suporte, a arquitetura do modelo importa muito menos do que a orquestracao ao redor dela. Uma resposta de suporte real quase nunca e uma geracao do zero. E uma resposta fundamentada na sua base de conhecimento, no historico de tickets e nos documentos de politica. Isso coloca a fraqueza da difusao, o tratamento de contexto longo, diretamente no caminho do caso de uso de suporte, e significa que a qualidade da recuperacao, a atualidade do conhecimento e as salvaguardas determinam a resposta muito mais do que o fato de os tokens finais terem sido emitidos da esquerda para a direita ou em paralelo.

Sem rodeios: um modelo mais rapido conectado a conhecimento desatualizado ou a regras fracas de escalonamento apenas produz respostas erradas mais rapido. O problema do relogio quebrado, aplicado ao suporte. E tambem por isso que os problemas de chatbots de IA raramente se reduzem ao modelo base e tao frequentemente se reduzem a fundamentacao, testes e as metricas que voce realmente acompanha.

O conselho genuinamente util, entao, e permanecer agnostico em relacao ao modelo. Escolha uma camada que permita ao modelo subjacente melhorar por baixo de voce, seja um modelo de difusao mais rapido no proximo ano ou um modelo autorregressivo mais inteligente. As equipes que mais se beneficiarao da difusao sao aquelas que construiram primeiro sobre uma orquestracao solida e trataram o modelo como um componente substituivel.

Experimente a eesel

E exatamente assim que a eesel AI e construida. Em vez de apostar em uma arquitetura de modelo, a eesel e a camada de orquestracao: ela aprende com seus tickets anteriores, documentos de ajuda e ferramentas desde o primeiro dia, depois rascunha respostas, faz triagem e escala atraves do helpdesk que voce ja usa, com roteamento baseado em confianca para que respostas de baixa confianca permanecam como rascunhos em vez de irem ao ar.

Visao geral do painel de helpdesk da eesel AI

O diferencial que importa para este tema: um modo de simulacao que executa o agente contra seus tickets anteriores para que voce possa ver a cobertura e corrigir lacunas antes de ir ao ar, que e como voce impede um modelo rapido de enviar respostas erradas com confianca. Ele funciona em mais de 100 integracoes e mais de 80 idiomas, entao, seja qual for o modelo mais rapido ou mais inteligente no proximo ano, sua configuracao de suporte continua funcionando. Voce pode experimentar a eesel gratuitamente, sem precisar de cartao de credito.

Perguntas frequentes

O que e um modelo de IA baseado em difusao em termos simples?

Um modelo de IA baseado em difusao gera resultados partindo de ruido aleatorio (ou de espacos reservados mascarados) e refinando-o passo a passo ate chegar a um resultado finalizado. E a tecnica por tras de ferramentas de imagem como o Stable Diffusion e, mais recentemente, por tras dos modelos de linguagem por difusao, que escrevem texto removendo o ruido de uma sequencia inteira em paralelo, em vez de uma palavra por vez. Para uma introducao mais ampla, veja nossa visao geral de IA generativa para equipes de suporte.

Em que os modelos de linguagem por difusao diferem dos LLMs autorregressivos como GPT ou Claude?

LLMs autorregressivos como o ChatGPT e o Claude geram texto da esquerda para a direita, um token por vez, com cada token esperando por tudo o que vem antes dele. Os modelos de linguagem por difusao refinam muitos tokens de uma vez ao longo de algumas passagens de remocao de ruido, o que os torna muito mais rapidos e lhes permite revisar palavras anteriores. O compromisso e que, atualmente, ficam atras em tarefas de raciocinio dificil e de contexto longo.

Os modelos de IA baseados em difusao sao mesmo mais rapidos que os LLMs comuns?

Sim, em throughput bruto. Testes independentes mediram o Mercury 2 da Inception em cerca de 1.196 tokens por segundo, contra dezenas a algumas centenas de tokens por segundo para modelos autorregressivos otimizados para velocidade. O detalhe e que a vantagem de velocidade e maior em resultados longos e paralelizaveis e diminui em respostas muito curtas. Veja como a velocidade se conecta as metricas de atendimento ao cliente com IA.

Minha empresa deveria migrar para um modelo de linguagem por difusao?

Para a maioria das aplicacoes em producao, ainda nao. Os modelos autorregressivos ainda lideram em profundidade de raciocinio, contexto longo e maturidade de ecossistema. A jogada sensata e o roteamento: enviar etapas de alta frequencia e sensiveis a latencia para um modelo de difusao rapido e manter os modelos autorregressivos para o raciocinio profundo. Para atendimento ao cliente especificamente, o modelo importa menos do que a orquestracao do agente de helpdesk com IA ao redor dele.

A arquitetura do modelo importa para o atendimento ao cliente com IA?

Menos do que voce imagina. Uma resposta de suporte e uma resposta fundamentada na sua base de conhecimento, no historico de tickets e nas politicas, entao recuperacao, salvaguardas e integracoes determinam a qualidade mais do que o fato de os tokens terem sido emitidos em paralelo. Um modelo mais rapido conectado a um conhecimento desatualizado apenas produz respostas erradas mais rapido. Ferramentas como a eesel AI focam nessa camada de orquestracao, independentemente do modelo subjacente.

Contrate seu colega de IA

Configure em minutos. Sem cartão de crédito.

Teste grátis Agendar demo

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.