Blog / Guides

Preços do Cohere AI em 2026: guia completo dos custos reais

Escrito por

Alicia Kirana Utomo

Revisado por

Katelin Teen

Última edição June 9, 2026

Verificado por especialista

Ilustração dos preços do Cohere AI com o logotipo da Cohere e um layout de cartão de preços

TL;DR

As principais tarifas da Cohere (obtidas de hosts de terceiros porque a própria página de preços da Cohere não as renderiza em HTML simples): Command A e Command R+ (08-2024) estão ambos a $2,50 / $10,00 por 1M de tokens no OpenRouter. Command R (08-2024) é o queridinho do custo-benefício a $0,15 / $0,60. Command R7B cai para $0,0375 / $0,15. Embed v4 está listado a ~$0,12 por 1M de tokens de entrada no AWS Bedrock. Rerank é por pesquisa: $0,0025 (Pro), $0,002 (Fast), $0,001 (v3.5).

O nível dedicado Model Vault custa de $4 a $10 por hora por instância ($2.500 a $6.500/mês) conforme cohere.com/pricing. North (a plataforma de agentes) e Compass (busca enterprise) não têm preços publicados, ambos são "solicitar uma demo".

O problema: as tarifas que a Cohere oculta são exatamente as que você mais gostaria de comparar. Command A+, Command A Reasoning, Command A Translate e Command A Vision são todos "contatar vendas" em chaves de produção. E conforme os revisores do PeerSpot e análises pós-mortem de preços de desenvolvedores, a fatura real raramente é a tarifa por token. São a equipe de desenvolvedores, o trabalho de integração e (se estiver no Bedrock) o Throughput Provisionado.

Se você é uma equipe de suporte avaliando a Cohere contra uma alternativa pronta para usar, a comparação por token é a unidade errada. Abordamos isso abaixo, assim como onde a Cohere realmente brilha.

Uma primeira olhada na página de preços

Antes de entrar nos números, aqui está o cohere.com/pricing. Três abas (Workplace systems, Generative models, Advanced retrieval models), uma tabela do Model Vault, um bloco de FAQ com tarifas legadas e um formulário de captura de leads.

Página de preços da Cohere com três abas e um formulário de captura de leads, retirado de cohere.com

Se você visitou a página recentemente, terá notado algo estranho: as tabelas de preço por token para os modelos generativos e de recuperação atuais não aparecem no "ver código-fonte" do HTML. Elas são renderizadas do lado do cliente via Sanity CMS, o que significa que ferramentas de scraping (e a maioria dos crawlers de LLM) obtêm apenas as partes estáticas: a tabela de instâncias dedicadas do Model Vault, os avisos de legado/Aya no FAQ e os cartões enterprise de "falar com vendas". Para uma página de preços pública de um fornecedor cujo pitch é a transparência, é uma escolha estranha. Cruzamos referências com OpenRouter, AWS Bedrock, a própria documentação da Cohere e o snapshot do Wayback Machine para obter o restante, e é nisso que este post se baseia.

Aqui está o resumo de preços de relance:

Gráfico de barras dos preços de entrada da API Cohere por 1M de tokens para Command R7B, Command R, Embed v4, Command A+ e Command A ou R+

Preços da API Cohere, modelo por modelo

O catálogo da Cohere se divide em três categorias: generativo (a família Command), recuperação (Embed e Rerank) e áudio (Transcribe). A maioria tem uma tarifa por token ou por pesquisa; alguns não têm.

Generativo: a família Command

Estes são os modelos de geração de texto da Cohere, disponibilizados através do endpoint de Chat. A especificação completa (status, modalidade, janela de contexto, limite de saída) vem do catálogo de modelos Cohere. As tarifas por token para o bloco legado são literalmente do FAQ de preços da Cohere; para a atualização R/R+ de agosto de 2024 e Command A, usamos o OpenRouter.

Modelo	Status	Contexto	Saída máx.	Entrada $/1M	Saída $/1M	Fonte
Command A+	Ativo	128k	64k	Sem preço público	Sem preço público	Cohere pricing, produção = contatar vendas
Command A Reasoning	Ativo	256k	32k	Sem preço público	Sem preço público	Cohere, contatar vendas
Command A Translate	Ativo	8k	8k	Sem preço público	Sem preço público	Cohere, contatar vendas
Command A Vision	Ativo	128k	8k	Sem preço público	Sem preço público	Cohere, contatar vendas
Command A	Ativo	256k	8k	$2,50	$10,00	OpenRouter
Command R+ (08-2024)	Ativo	128k	4k	$2,50	$10,00	Cohere FAQ
Command R (08-2024)	Ativo	128k	4k	$0,15	$0,60	OpenRouter
Command R7B (12-2024)	Ativo	128k	4k	$0,0375	$0,15	OpenRouter
Command (legado)	Descontinuado 2025-09-15	4k	4k	$1,00	$2,00	Cohere FAQ
Command-light (legado)	Descontinuado 2025-09-15	4k	4k	$0,30	$0,60	Cohere FAQ
Command R 03-2024	Descontinuado 2025-09-15	128k	4k	$0,50	$1,50	Cohere FAQ
Command R+ 04-2024	Descontinuado 2025-09-15	128k	4k	$3,00	$15,00	Cohere FAQ
Aya Expanse 8B	Ativo	128k	4k	$0,50	$1,50	Cohere FAQ
Aya Expanse 32B	Ativo	128k	4k	$0,50	$1,50	Cohere FAQ

Algumas coisas que vale notar. Primeiro, o preço efetivo do Command R+ caiu: o lançamento de 04-2024 estava listado a $3,00 / $15,00, a atualização de 08-2024 está a $2,50 / $10,00 e é assim que está hoje. A thread de lançamento original do Hacker News ancorou o R+ na tarifa mais alta e a comunidade questionou se o salto de parâmetros justificava isso; a redução de preço alguns meses depois é a resposta.

Segundo, Command A é basicamente um "R+ moderno na mesma tabela de tarifas". Mesmo $2,50 / $10,00, mas com contexto de 256k, 150% mais throughput e melhor desempenho agêntico conforme a documentação. Se você usava R+ para trabalho geral, A é o novo padrão.

Terceiro, Command R7B é genuinamente barato. A $0,0375 entrada / $0,15 saída por 1M, você pode executar uma enorme quantidade de sumarização, classificação ou roteamento pelo preço de uma única requisição de classe GPT.

Interface do Command gerando uma descrição de produto a partir de um PDF carregado, retirado de cohere.com

Recuperação: Embed e Rerank

É aqui que os preços da Cohere realmente merecem sua reputação. O stack de recuperação é sobre o que trata a maior parte dos elogios dos desenvolvedores no PeerSpot e blogs de desenvolvimento, e as tarifas confirmam isso.

Modelo	Tipo	Contexto	Preço	Fonte
Embed v4	Embeddings (texto + imagens + PDFs)	128k	$0,12 / 1M tokens de entrada	AWS Bedrock
Embed v3 English	Embeddings	512	$7,12/hora (apenas Throughput Provisionado no Bedrock)	AWS Bedrock
Embed v3 Multilingual	Embeddings	512	$7,12/hora (apenas Throughput Provisionado no Bedrock)	AWS Bedrock
Rerank 4 Pro	Rerank	32k	$0,0025 / pesquisa	OpenRouter
Rerank 4 Fast	Rerank	32k	$0,002 / pesquisa	OpenRouter
Rerank v3.5	Rerank	4k	$0,001 / pesquisa (OpenRouter), $2,00 por 1.000 consultas (Bedrock)	OpenRouter / AWS Bedrock

Duas definições importantes para entender aqui:

Uma "pesquisa" é uma consulta mais até 100 documentos, conforme o FAQ de preços da Cohere. Qualquer coisa acima de 500 tokens é automaticamente dividida em múltiplos documentos e cada chunk conta.
Embed v4 lida com PDFs nativamente. Isso é um detalhe de preços significativo, porque a alternativa em outros fornecedores é analisar os PDFs em chunks e incorporar cada chunk separadamente.

Nossa recomendação: Embed v4 + Rerank v3.5 + Command R é o "stack RAG barato e capaz" canônico na Cohere, e o custo total em uma carga de trabalho de recuperação moderada fica abaixo do que custaria um pipeline comparável de classe GPT + embeddings OpenAI. Se você priorizar qualidade, mude para Rerank 4 Pro e Command A.

Barra lateral da documentação de desenvolvedores da Cohere mostrando modelos Command, Embed, Rerank e Aya, retirado de docs.cohere.com

Áudio: Cohere Transcribe

Transcribe é o modelo de fala para texto da Cohere: cohere-transcribe-03-2026, 14 idiomas, arquivo máximo de 25 MB. O preço por minuto está na aba de preços ao vivo e não está exposto no HTML estático, portanto não podemos citá-lo aqui sem induzi-lo ao erro. A documentação de transcrição de áudio confirma que as chaves de teste estão limitadas a 5 requisições por minuto e o acesso à produção é via sales@cohere.com.

O que não está na página de preços pública

Esta é a parte que vale ser honesto, porque é a diferença entre a Cohere e um fornecedor como Anthropic ou OpenAI, onde cada modelo tem uma tarifa por token publicada.

Os itens a seguir estão listados na página de preços ao vivo da Cohere, mas não renderizam em HTML estático e também não são expostos claramente por hosts de terceiros:

Command A+, o modelo MoE flagship da Cohere, lançado como código aberto em 19 de maio de 2026. Comercializado para "infraestrutura crítica soberana". Sem tarifa pública por token.
Command A Reasoning, Translate e Vision, todos "contatar vendas" em chaves de produção conforme a documentação de limites de taxa. As chaves de teste estão limitadas a 20 req/min e 1.000 chamadas/mês.
Taxas de fine-tuning (treinamento, hospedagem, serviço).
Preços por imagem para Command A Vision e as entradas de imagem do Command A+.
Descontos da API em lote, listados mas sem tarifa explícita.
North-Mini-Code-1.0, aparece nas tabelas de limites de taxa; tarifa por token não exposta.

O que isso significa para um comprador: no momento em que você quiser comparar o flagship atual da Cohere com GPT-5.x ou Claude Sonnet em base de $/1M tokens, não será possível sem agendar uma chamada de vendas. Se isso é um impeditivo depende do seu papel. Para um arquiteto enterprise preparando um documento de aquisição, é um ponto de fricção mas não uma barreira. Para uma equipe pequena avaliando cinco provedores de LLM em uma tarde, é suficiente para colocar a Cohere mais abaixo na lista.

Model Vault: implantações dedicadas, preços exatos

O Model Vault é a oferta de instância dedicada da Cohere: você reserva capacidade de computação que executa apenas seus modelos, sem multilocação. Este também é o único bloco da página de preços da Cohere onde os números reais em dólares estão no HTML, então podemos citá-lo diretamente.

Modelo	Nível de performance	Taxa horária por instância	Taxa mensal por instância
Embed 4	Small	$4,00	$2.500
Embed 4	Medium	$5,00	$3.250
Rerank 3.5	Medium	$5,00	$3.250
Rerank 4 Fast	Medium	$5,00	$3.250
Rerank 4 Pro	Medium	$5,00	$3.250
Rerank 4 Pro	Large	$10,00	$6.500

Alguns pontos a destacar:

O faturamento pode ser por hora ou baseado em compromisso (mensal ou anual). A taxa mensal equivale a ~$8,33/hora em 30×24, então a taxa mensal comprometida só é mais barata que por hora se o uso superar cerca de 60 a 80% do mês.
Um ponto de dados separado do Sanity CMS lista um preço do Model Vault vinculado ao Compass de $3,75/hora por instância, que não aparece na tabela principal acima. Vale a pena mencionar em uma conversa de vendas se o Compass estiver em seu plano.
Sem nível Command sob demanda no Model Vault. Se você quiser throughput generativo dedicado, está em território de implantação personalizada.

O Model Vault é a resposta para um comprador específico: "Preciso de gastos mensais previsíveis com recuperação em escala e não quero que minhas cargas de trabalho compartilhem um pool multilocatário." Uma equipe RAG típica executando, digamos, 500 jobs de embed/hora e 5.000 consultas de rerank/minuto se inclinaria para um Rerank 4 Pro Medium ($3.250/mês) mais um Embed 4 Medium ($3.250/mês), totalizando cerca de $6.500/mês, pagos como um item fixo em vez de medidos por requisição.

North e Compass: as plataformas enterprise

A primeira aba da página de preços da Cohere é Workplace systems, e é a parte mais opaca de toda a história de preços. Dois produtos vivem lá:

North, a plataforma de agentes da Cohere. Apresentada na página inicial como "Seu ambiente de trabalho de IA soberano". Conecta-se às suas ferramentas, permite que os usuários executem automações e inclui busca inteligente.
Compass, o sistema de busca e descoberta enterprise da Cohere, com conectores de dados pré-construídos, análise de documentos e índice gerenciado.

Nenhum tem preço público. Ambos são "Entre em contato para preços enterprise personalizados" com um CTA de "Solicitar uma demo". O formulário de captura de leads em cohere.com/pricing expõe um dropdown de preferência de implantação (AWS, Azure, GCP, OCI, IBM Cloud, Tencent Cloud, Alibaba Cloud, Private Deployment, Cohere Infrastructure (SaaS), Other), o que é um sinal justo de quão personalizados esses negócios tendem a ser.

Plataforma de agentes North mostrando a interface de navegação de Automations com os cartões Revenue Scope e Meeting Summarizer, retirado de cohere.com

O que esperaríamos, com base em conversas com compradores enterprise e negócios de referência públicos (Fujitsu, Oracle, RBC, Dell, LG CNS, todos no strip de logotipos da página inicial da Cohere): um ciclo de aquisição com múltiplos stakeholders, um mínimo de seis dígitos em um compromisso de primeiro ano, suporte dedicado de engenharia de soluções e uma superfície de implantação personalizada. Se você é um Fortune 500 com um mandato de dados soberanos, isso é o básico. Se você é uma equipe de suporte de 50 pessoas que só quer uma IA que faça triagem de tickets, isso não é para você.

Os revisores no PeerSpot apontam a mesma coisa: "A Cohere oferece preços enterprise para clientes de alto volume, e você deve contatar a equipe de vendas para preços personalizados se estiver processando bilhões de tokens mensalmente ou precisar de suporte dedicado, SLAs ou implantações privadas."

Preços em nuvens parceiras

A Cohere é vendida por todos os principais marketplaces de nuvem: AWS Bedrock, Amazon SageMaker, Microsoft Azure (AI Foundry), Oracle Cloud Infrastructure, Google Cloud, IBM Cloud, Tencent Cloud, Alibaba Cloud. Os preços em cada um são definidos pelo marketplace, não pela Cohere, e nem sempre são idênticos ao cohere.com.

A coisa mais surpreendente é que o AWS Bedrock foi reduzido. O catálogo atual sob demanda da Cohere é apenas Embed 4 e Rerank 3.5; Command R, R+ e A não estão mais na lista sob demanda. A família Command no Bedrock agora é apenas Throughput Provisionado, o que tem uma estrutura de custos muito diferente:

AWS Bedrock: itens da Cohere	Modelo de preços	Preço
Embed 4	Por 1M tokens de entrada	$0,12
Rerank 3.5	Por 1.000 consultas	$2,00
Cohere Command	Throughput Provisionado / hora (sem compromisso)	$49,50
Cohere Command	Throughput Provisionado / hora (compromisso 1 mês)	$39,60
Cohere Command	Throughput Provisionado / hora (compromisso 6 meses)	$23,77
Cohere Command-Light	Throughput Provisionado / hora (sem compromisso)	$8,56
Cohere Command-Light	Throughput Provisionado / hora (compromisso 1 mês)	$6,85
Embed 3 English	Throughput Provisionado / hora (sem compromisso)	$7,12
Embed 3 Multilingual	Throughput Provisionado / hora (sem compromisso)	$7,12

Esses $49,50/hora por unidade de modelo (sem compromisso) para o Cohere Command equivalem a ~$29.462/mês por unidade. A citação do PeerSpot sobre "caro usar todos os serviços Oracle" é a mesma história em outra aba: o sobrepreço do marketplace de nuvem é onde as surpresas orçamentárias vivem.

O Azure AI Foundry vende Cohere-command-a, Cohere-rerank-v4.0-pro/fast e embed-v-4-0 diretamente, mas as tarifas por token não estão na página de documentação. A documentação de modelos pré-treinados do Oracle OCI lista todos os modelos Cohere que o OCI hospeda (Command A Reasoning, A Vision, A, R+, R, variantes Embed v4 + v3, Rerank 4, Rerank 3.5), mas novamente as tarifas estão em uma página de preços separada.

A regra prática: se você é sensível a custos, execute a Cohere na própria plataforma da Cohere. Os marketplaces são convenientes se você já vive lá, mas o sobrepreço é real.

Teste vs. produção: as letras miúdas

Alguns mecanismos que vale conhecer antes de se inscrever, todos da documentação oficial de limites de taxa e do FAQ de preços:

Chaves de teste são gratuitas, mas limitadas a 1.000 chamadas de API por mês e 20 req/min por modelo de chat. São explicitamente proibidas para produção ou uso comercial.
Chaves de produção são pay-as-you-go, com limites de taxa mais altos (500 req/min para Command A, R, R+, R7B).
Para variantes de modelos mais recentes (Command A+, A Reasoning, A Translate, A Vision), as chaves de produção se comportam como chaves de teste. Você precisa contatar sales@cohere.com para acesso real à produção. Fácil de passar despercebido.
Ciclo de cobrança: fim de cada mês do calendário ou quando seu saldo pendente atingir $250, o que ocorrer primeiro.
Você só é cobrado por billed_units, não pela contagem de tokens subjacente. A Cohere absorve o custo de quaisquer tokens de controle adicionados internamente. A documentação deles inclui um exemplo onde a contagem real de tokens é 7.596 / 645, mas billed_units é 6.772 / 248. Pequeno mas real.
As contas começam como pessoais; você precisa configurar uma organização se quiser faturamento compartilhado entre membros da equipe.

O bloqueio de teste vs. produção em modelos flagship é o ponto de fricção. A maioria dos provedores de LLM permite que você acesse GPT-5 ou Claude Sonnet com uma chave self-service desde o primeiro dia. A Cohere não, e se você estiver comparando modelos entre si, essa assimetria pode silenciosamente orientar seus testes para o modelo que você realmente consegue executar.

Exemplos práticos de custos

Vamos ser concretos. Três cenários:

Cenário 1: Pipeline RAG pequeno (barato e direto ao ponto)

Você é uma equipe de operações de 10 pessoas, construindo um bot interno de "pergunte ao wiki". ~5M tokens/dia de indexação, ~50.000 consultas de recuperação/dia, geração com Command R.

Item	Volume	Tarifa	Custo mensal
Embed v4 (texto)	5M tokens × 30 dias = 150M	$0,12 / 1M	$18
Rerank v3.5	50.000 × 30 = 1,5M pesquisas	$0,001 / pesquisa	$1.500
Command R (entrada + saída)	200M entrada, 50M saída	$0,15 entrada / $0,60 saída	$60
Total			~$1.578/mês

O Rerank é o item dominante. Se você conseguir reduzir para top-5 de rerank em vez de top-100 por consulta, essa fatura cai bastante.

Cenário 2: Automação de suporte de médio porte (o pitch típico)

Você é uma equipe de suporte, ~1.000 tickets/dia, construindo um bot de deflexão diretamente no Cohere. Ticket médio = 3.000 tokens de entrada (histórico + contexto KB) + 500 tokens de saída.

Item	Volume	Tarifa	Custo mensal
Command A (entrada)	1.000 × 3.000 × 30 = 90M	$2,50 / 1M	$225
Command A (saída)	1.000 × 500 × 30 = 15M	$10,00 / 1M	$150
Embed + Rerank (recuperação KB)	como Cenário 1, escalado	misto	~$200
Total API			~$575/mês
Tempo de desenvolvedor para construir/manter	~0,25 a 0,5 FTE	$10 a $20k/mês carregado	$10 a $20k/mês

Os $575 em tokens são o menor item da fatura. O custo real é o engenheiro escrevendo os prompts, a orquestração, as retentativas, o harness de avaliação e a rotação de plantão quando o bot escala errado. O que leva a…

Cenário 3: Enterprise dedicado (Model Vault)

Você é uma empresa executando RAG sobre um corpus de 5 milhões de documentos, com volume de recuperação previsível.

Item	Nível	Custo mensal
Embed 4 Medium	Dedicado	$3.250
Rerank 4 Pro Medium	Dedicado	$3.250
Command A (por token)	API	variável
Base de recuperação dedicada		$6.500/mês

Adicione um contrato North ou Compass por cima e você está na faixa de seis dígitos em um ano. É para isso que apontam os negócios de referência da Fujitsu e da Oracle.

Ilustração de iceberg intitulada "O que o preço de etiqueta esconde" com as tarifas de API por token acima da água e equipe de desenvolvedores, servidores e infraestrutura, trabalho de integração e manutenção contínua abaixo

O que os usuários realmente dizem sobre a fatura

Coletamos vozes reais de profissionais do PeerSpot e da thread de lançamento do Command R+ no Hacker News. A divisão é consistente e vale conhecer:

"A Cohere tem um nível gratuito… você pode usar a API em modo de desenvolvimento. Mas se você for para produção, terá que pagar… pode ser caro." CollinsOmondi, Mobile Developer, thread de preços do PeerSpot

"Comparado aos modelos disponíveis no mercado, os preços, o custo de configuração e o licenciamento da Cohere são melhores." Shivam Singh, Senior Solution Architect, thread de preços do PeerSpot

"Usei o Embed English v3.0 da Cohere para tarefas RAG e o encontrei mais rápido, mais barato e mais responsivo que as alternativas." Resumo dos revisores do PeerSpot

"Minha experiência com preços, custo de configuração e licenciamento é que é caro usar todos os serviços Oracle." Senior Data Scientist, thread de preços do PeerSpot

E da thread de lançamento R+ no Hacker News (que tinha um tom muito mais afiado):

"[Command-R] acabou lobotomizado quando o agente dependia de seus resultados." irthomasthomas, thread do Hacker News

O que extrairíamos disso:

A história do Embed e Rerank é uniformemente positiva. "Mais rápido, mais barato, mais responsivo" aparece repetidamente em contextos de recuperação. Esta é a história de preços mais forte da Cohere, e não está sendo contada com força suficiente na página de marketing.
Command R é onde vivem os fãs de custo-benefício. $0,15 / $0,60 para um modelo de 35B parâmetros e contexto de 128k é genuinamente bom.
Command R+ recebe críticas. A thread do HN ancorou o R+ em um passo de preço 6x acima do R, e a comunidade queria saber por quê. A resposta de Simon Willison se resumiu a "é um modelo de 104B, você está pagando pela contagem de parâmetros, não por um novo nível de capacidade", o que é honesto, mas não é uma boa resposta para compradores que priorizam qualidade de saída.
O verdadeiro "choque de preço" não é a tarifa por token, é o TCO. Vários artigos de profissionais fazem o mesmo ponto: "Você precisa de uma equipe de desenvolvedores para construir o aplicativo, cientistas de dados para ajustar os modelos e uma equipe de TI para gerenciar tudo."

Esse último ponto vale a pena ser considerado.

Onde a Cohere se encaixa e onde não se encaixa

O preço não é realmente a questão. O encaixe é. Os preços da Cohere são projetados para um perfil específico de comprador, e se você não é esse comprador, a pergunta se a tarifa por token é "boa" ou "cara" perde o ponto.

Fluxograma de decisão intitulado "Escolhendo um provedor de LLM" com um fork soberania+dados privados ramificando para Cohere se encaixa (Piloto enterprise, Implantação personalizada, Stack de recuperação RAG) ou Procurar em outro lugar (Produto plug-and-play, SaaS para equipe de suporte, Comprador self-service)

A Cohere é uma boa escolha se você é uma empresa com:

Um mandato de soberania de dados (serviços financeiros, setor público, saúde, defesa, telecomunicações).
Uma equipe de engenharia existente que pode integrar no nível da API: escrever os prompts, construir a orquestração, executar as avaliações.
Uma carga de trabalho principal que é RAG ou orientada à recuperação. O stack Embed + Rerank + Command R é genuinamente uma vantagem de custo-benefício, especialmente em conteúdo multilíngue (49 idiomas no Command, veja a página inicial).
Um requisito de múltiplas nuvens ou on-premises. A história de implantação da Cohere (VPC, on-prem, Model Vault, nuvens parceiras) foi construída para isso.

A Cohere é a escolha errada se você é:

Uma equipe pequena que quer algo funcionando desde o primeiro dia, não depois de três meses de construção de integração.
Uma equipe de suporte, operações ou conteúdo onde a unidade de valor é "ticket atendido" ou "post publicado", não "token processado".
Sensível a custos de forma self-service. As tarifas flagship estando atrás de uma chamada de vendas significa que você não consegue executar a comparação que quer.
Procurando agentes de IA plug-and-play dentro de helpdesks como Zendesk, Freshdesk ou Gorgias.

Para esse segundo perfil, que é a maior parte do que vemos em conversas reais com compradores, a questão não é "A Cohere é mais barata que a OpenAI por token?". É "Consigo o valor da IA sem pagar pela equipe de integração?". E isso é uma forma diferente de precificação.

Experimente o eesel

Se você chegou até aqui e é uma equipe de suporte, operações ou conteúdo que está pesando a Cohere contra uma alternativa pronta para usar, aqui está a proposta honesta.

O eesel oferece agentes de IA que vivem dentro das ferramentas que você já usa: Zendesk, Freshdesk, Gorgias, Slack, Gmail, Shopify e uma centena de outros. Sem prompts para engenheirar, sem orquestração para construir, sem chamada de vendas para chave de produção. Você conecta seu helpdesk, instrui o agente em linguagem simples como faria com um novo funcionário, e ele começa a lidar com tickets.

Os preços também têm uma forma diferente: $0,40 por ticket como tarefa regular, sem taxa de plataforma, sem taxas por assento, sem mínimo mensal. Uma equipe de 1.000 tickets/mês paga $400. Uma equipe de 100 tickets/mês paga $40. Você ganha um crédito gratuito de $50 (mais 2 gerações de blog gratuitas) antes de precisar de cartão. Preços completos aqui.

Visão geral do painel de helpdesk do eesel AI

Não somos o mesmo produto que a Cohere: a Cohere vende modelos; o eesel vende colegas de IA que rodam em cima de modelos. Se seu trabalho é fornecer infraestrutura para o stack de IA soberano de um Fortune 500, a Cohere é a escolha certa. Se seu trabalho é deflectir tickets de tier-1 na próxima semana, experimente o eesel: leva alguns minutos para fazer o onboarding e a matemática por ticket é mais fácil de defender em uma reunião de orçamento do que um item de Throughput Provisionado.

Perguntas frequentes

Quanto custa o Cohere AI por 1M de tokens?

Depende do modelo. Por meio de hosts de terceiros, Command A e Command R+ (08-2024) estão listados a $2,50 entrada / $10,00 saída por 1M de tokens, Command R (08-2024) a $0,15 / $0,60 e Command R7B a $0,0375 / $0,15. A Cohere oculta as tarifas por token para Command A+, Command A Reasoning, Translate e Vision por trás do sales@cohere.com. Para um caso de uso de suporte pronto para uso onde o preço por token do Cohere AI não é a unidade certa, veja os preços por ticket do eesel.

Existe um nível gratuito para o Cohere AI?

Sim. As chaves de API de teste da Cohere são gratuitas e limitadas a 1.000 chamadas por mês, conforme a documentação oficial de limites de taxa. Elas têm limite de taxa e são explicitamente proibidas para produção. Depois de mudar para uma chave de produção, você é cobrado no final de cada mês do calendário ou quando seu saldo atingir $250, o que ocorrer primeiro.

Qual é o preço da Cohere para Embed e Rerank?

Embed v4 fica em torno de $0,12 por 1M de tokens de entrada no AWS Bedrock. Os preços do Rerank são por pesquisa: Rerank 4 Pro a $0,0025 cada, Rerank 4 Fast a $0,002 e Rerank v3.5 a $0,001 (ou $2,00 por 1.000 consultas no Bedrock). Uma "pesquisa" é uma consulta mais até 100 documentos. Para uma análise mais aprofundada do lado de recuperação, veja nossa avaliação do Cohere AI.

Quanto custa o Model Vault?

O Model Vault é a opção de instância dedicada da Cohere. A tabela publicada vai de $4,00/hora ($2.500/mês) para uma instância Embed 4 Small até $10,00/hora ($6.500/mês) para uma instância Rerank 4 Pro Large. Você pode pagar por hora ou se comprometer mensalmente. Se estiver comparando isso com uma IA com preço por ticket, nosso guia de alternativas ao Cohere AI detalha o cálculo por ticket.

Quanto custam as plataformas enterprise da Cohere?

A plataforma de agentes North da Cohere e o sistema de busca Compass são ambos "solicitar uma demo" sem preços publicados. Espere um ciclo de vendas com múltiplos stakeholders. Se quiser agentes de IA de nível enterprise que possa implantar no mesmo dia a um preço por ticket, a plataforma eesel foi feita para isso.

O Cohere AI é mais barato que o OpenAI ou o Anthropic?

Depende do modelo e da carga de trabalho. Command R a $0,15 / $0,60 por 1M é genuinamente barato e competitivo com modelos pequenos de classe GPT, razão pela qual o stack de recuperação (Embed + Rerank + Command R) tende a sair na frente no RAG. Command R+ e Command A a $2,50 / $10,00 estão dentro da faixa dos modelos medianos da OpenAI e Anthropic, mas os revisores os avaliam consistentemente abaixo do frontier; veja nossa comparação API OpenAI vs Anthropic para contexto.

Quais são os custos ocultos do Cohere AI?

O preço de tabela é o menor item. Os revisores no PeerSpot e os compradores do AWS Bedrock apontam consistentemente que a fatura real envolve desenvolvedores, trabalho de integração, manutenção contínua e (no Bedrock) o Throughput Provisionado, onde o Cohere Command custa $49,50/hora por unidade de modelo, cerca de $29k/mês. Essa é a diferença entre o preço de etiqueta e o custo total de propriedade.

Para quem os preços da Cohere foram feitos?

Empresas que precisam de soberania de dados, implantação privada e integração personalizada: serviços financeiros, setor público, saúde, telecomunicações. Se você é uma equipe menor de suporte, operações ou conteúdo que quer algo que funcione desde o primeiro dia, uma visão geral da Cohere provavelmente terminará com você escolhendo um SaaS que faz a integração por você. Experimente o eesel se isso soar como você.

Contrate seu colega de IA

Configure em minutos. Sem cartão de crédito.

Teste grátis Agendar demo

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.