Cohere AI Preise 2026: Ein vollständiger Leitfaden zu den echten Kosten

Q: Was kosten Coheres Enterprise-Plattformen?

Coheres North -Agentenplattform und das Compass -Suchsystem sind beide nur auf Anfrage ohne veröffentlichte Preise erhältlich. Rechnen Sie mit einem mehrstufigen Verkaufszyklus. Wenn Sie Enterprise-KI-Agenten wollen, die Sie noch am selben Tag mit einem Pro-Ticket-Preis einrichten können, ist die eesel-Plattform dafür gebaut.

Geschrieben von

Alicia Kirana Utomo

Geprüft von

Katelin Teen

Zuletzt bearbeitet June 9, 2026

Expertengeprüft

TL;DR

Coheres Haupttarife (bezogen von Drittanbieter-Hosts, da Coheres eigene Preisseite sie nicht im einfachen HTML darstellt): Command A und Command R+ (08-2024) liegen beide bei $2,50 / $10,00 pro 1 Mio. Token auf OpenRouter. Command R (08-2024) ist der Preis-Leistungs-Favorit bei $0,15 / $0,60. Command R7B fällt auf $0,0375 / $0,15. Embed v4 listet bei ~$0,12 pro 1 Mio. Input-Token auf AWS Bedrock. Rerank ist pro Suche: $0,0025 (Pro), $0,002 (Fast), $0,001 (v3.5).

Der Model Vault Dedicated-Tier kostet $4 bis $10 pro Stunde pro Instanz ($2.500 bis $6.500/Monat) laut cohere.com/pricing. North (die Agentenplattform) und Compass (Enterprise-Suche) haben keine veröffentlichten Preise – beide sind "Demo anfordern".

Der Haken: Die Tarife, die Cohere versteckt, sind genau die, die Sie am meisten vergleichen möchten. Command A+, Command A Reasoning, Command A Translate und Command A Vision sind alle auf Produktionsschlüsseln „Vertrieb kontaktieren". Und laut PeerSpot-Rezensenten und Entwickler-Preisanalysen ist die echte Rechnung selten der Pro-Token-Tarif. Es ist das Entwicklerteam, die Integrationsarbeit und (wenn Sie auf Bedrock sind) der Provisioned Throughput.

Wenn Sie ein Support-Team sind und Cohere gegen eine schlüsselfertige Alternative abwägen, ist der Pro-Token-Vergleich die falsche Einheit. Wir gehen unten darauf ein und zeigen, wo Cohere wirklich glänzt.

Ein erster Blick auf die Preisseite

Bevor wir zu den Zahlen kommen, hier ist cohere.com/pricing selbst. Drei Tabs (Workplace systems, Generative models, Advanced retrieval models), eine Model Vault-Tabelle, ein FAQ-Block mit Legacy-Tarifen und ein Lead-Erfassungsformular.

Coheres Preisseite mit drei Tabs und einem Lead-Erfassungsformular, von cohere.com

Wer die Seite kürzlich besucht hat, wird etwas Merkwürdiges bemerkt haben: Die Pro-Token-Tabellen für aktuelle generative und Retrieval-Modelle erscheinen nicht im „View Source" des HTML. Sie werden clientseitig über Sanity CMS gerendert, was bedeutet, dass Scraping-Tools (und die meisten LLM-Crawler) nur die statischen Teile erhalten: die Model Vault Dedicated-Instance-Tabelle, die Legacy/Aya-Hinweise in der FAQ und die Enterprise-„Vertrieb kontaktieren"-Karten. Für eine öffentliche Preisseite eines Anbieters, dessen Pitch Transparenz ist, ist das eine seltsame Entscheidung. Wir haben OpenRouter, AWS Bedrock, Coheres eigene Dokumentation und den Wayback Machine-Snapshot als Querverweise verwendet, um den Rest zu erhalten – darauf basiert dieser Beitrag.

Hier ist der Preisüberblick auf einen Blick:

Balkendiagramm der Cohere API Input-Preise pro 1 Mio. Token für Command R7B, Command R, Embed v4, Command A+ und Command A oder R+

Cohere API Preise, Modell für Modell

Coheres Katalog teilt sich in drei Bereiche: Generativ (die Command-Familie), Retrieval (Embed und Rerank) und Audio (Transcribe). Die meisten haben einen Pro-Token- oder Pro-Suche-Tarif; einige nicht.

Generativ: die Command-Familie

Dies sind Coheres Textgenerierungsmodelle, bereitgestellt über den Chat-Endpunkt. Die vollständige Spezifikation (Status, Modalität, Kontextfenster, Ausgabelimit) stammt aus dem Cohere-Modellkatalog. Pro-Token-Raten für den Legacy-Block sind wörtlich aus den Cohere-Preis-FAQs; für das August 2024 R/R+-Refresh und Command A verwendeten wir OpenRouter.

Modell	Status	Kontext	Max. Ausgabe	Input $/1M	Output $/1M	Quelle
Command A+	Live	128k	64k	Nicht öffentlich gelistet	Nicht öffentlich gelistet	Cohere pricing, Produktion = Vertrieb kontaktieren
Command A Reasoning	Live	256k	32k	Nicht öffentlich gelistet	Nicht öffentlich gelistet	Cohere, Vertrieb kontaktieren
Command A Translate	Live	8k	8k	Nicht öffentlich gelistet	Nicht öffentlich gelistet	Cohere, Vertrieb kontaktieren
Command A Vision	Live	128k	8k	Nicht öffentlich gelistet	Nicht öffentlich gelistet	Cohere, Vertrieb kontaktieren
Command A	Live	256k	8k	$2,50	$10,00	OpenRouter
Command R+ (08-2024)	Live	128k	4k	$2,50	$10,00	Cohere FAQ
Command R (08-2024)	Live	128k	4k	$0,15	$0,60	OpenRouter
Command R7B (12-2024)	Live	128k	4k	$0,0375	$0,15	OpenRouter
Command (Legacy)	Veraltet 2025-09-15	4k	4k	$1,00	$2,00	Cohere FAQ
Command-light (Legacy)	Veraltet 2025-09-15	4k	4k	$0,30	$0,60	Cohere FAQ
Command R 03-2024	Veraltet 2025-09-15	128k	4k	$0,50	$1,50	Cohere FAQ
Command R+ 04-2024	Veraltet 2025-09-15	128k	4k	$3,00	$15,00	Cohere FAQ
Aya Expanse 8B	Live	128k	4k	$0,50	$1,50	Cohere FAQ
Aya Expanse 32B	Live	128k	4k	$0,50	$1,50	Cohere FAQ

Ein paar bemerkenswerte Dinge. Erstens ist Command R+s effektiver Preis gesunken: Der 04-2024-Launch listete bei $3,00 / $15,00, das 08-2024-Refresh liegt bei $2,50 / $10,00 und dort steht es heute. Der ursprüngliche Hacker News Launch-Thread verankerte R+ beim höheren Preis, und die Community fragte, ob der Parametersprung das rechtfertigte; die Preissenkung ein paar Monate später ist die Antwort.

Zweitens ist Command A in etwa ein „modernes R+ auf derselben Preistabelle". Gleiche $2,50 / $10,00, aber ein 256k-Kontext, 150% höherer Durchsatz und bessere agentische Leistung gemäß der Dokumentation. Wenn Sie R+ für allgemeine Arbeiten verwendeten, ist A der neue Standard.

Drittens ist Command R7B wirklich günstig. Bei $0,0375 in / $0,15 out pro 1 Mio. können Sie eine Menge Zusammenfassung, Klassifizierung oder Routing für den Preis einer einzigen GPT-ähnlichen Anfrage durchführen.

Command UI generiert eine Produktbeschreibung aus einem hochgeladenen PDF, von cohere.com

Retrieval: Embed und Rerank

Hier verdient Coheres Preisgestaltung wirklich ihren Ruf. Der Retrieval-Stack ist das, wofür der Großteil des Entwicklerlobs auf PeerSpot und in Dev-Blogs steht, und die Tarife bestätigen das.

Modell	Typ	Kontext	Preis	Quelle
Embed v4	Embeddings (Text + Bilder + PDFs)	128k	$0,12 / 1M Input-Token	AWS Bedrock
Embed v3 English	Embeddings	512	$7,12/Stunde (nur Provisioned Throughput auf Bedrock)	AWS Bedrock
Embed v3 Multilingual	Embeddings	512	$7,12/Stunde (nur Provisioned Throughput auf Bedrock)	AWS Bedrock
Rerank 4 Pro	Rerank	32k	$0,0025 / Suche	OpenRouter
Rerank 4 Fast	Rerank	32k	$0,002 / Suche	OpenRouter
Rerank v3.5	Rerank	4k	$0,001 / Suche (OpenRouter), $2,00 pro 1.000 Anfragen (Bedrock)	OpenRouter / AWS Bedrock

Zwei Definitionen, die hier wichtig sind:

Eine „Suche" ist eine Anfrage plus bis zu 100 Dokumente, laut den Cohere-Preis-FAQs. Alles über 500 Token wird automatisch in mehrere Dokumente aufgeteilt, und jeder Chunk zählt.
Embed v4 verarbeitet PDFs nativ. Das ist eigentlich ein bedeutsames Preisdetail, denn die Alternative bei anderen Anbietern ist, PDFs selbst in Chunks zu parsen und jeden Chunk separat zu embedden.

Was wir empfehlen: Embed v4 + Rerank v3.5 + Command R ist der kanonische „günstige, leistungsfähige RAG-Stack" auf Cohere, und die Gesamtkosten bei einer moderaten Retrieval-Arbeitslast liegen unter dem, was eine vergleichbare GPT-ähnliche + OpenAI-Embeddings-Pipeline kosten würde. Wenn Sie bei der Qualität höher ansetzen, wechseln Sie zu Rerank 4 Pro und Command A.

Cohere Entwicklerdokumentation-Seitenleiste mit Command, Embed, Rerank und Aya Modellen, von docs.cohere.com

Audio: Cohere Transcribe

Transcribe ist Coheres Speech-to-Text-Modell: cohere-transcribe-03-2026, 14 Sprachen, max. 25 MB Datei. Pro-Minuten-Preise befinden sich auf dem Live-Pricing-Tab und sind nicht im statischen HTML zugänglich, daher können wir sie hier nicht ohne Fehlinformation zitieren. Die Audio-Transkriptions-Dokumentation bestätigt, dass Test-Schlüssel auf 5 Anfragen pro Minute begrenzt sind und der Produktionszugang über sales@cohere.com erfolgt.

Was nicht auf der öffentlichen Preisseite steht

Dies ist der Teil, bei dem Ehrlichkeit wichtig ist, denn es ist der Unterschied zwischen Cohere und einem Anbieter wie Anthropic oder OpenAI, wo jedes Modell einen veröffentlichten Pro-Token-Tarif hat.

Folgendes ist auf Coheres Live-Preisseite aufgeführt, wird aber nicht im statischen HTML gerendert und ist auch nicht sauber von Drittanbieter-Hosts zugänglich:

Command A+, Coheres Flaggschiff-MoE-Modell, am 19. Mai 2026 als Open-Source veröffentlicht. Vermarktet für „sovereign critical infrastructure". Kein öffentlicher Pro-Token-Tarif.
Command A Reasoning, Translate und Vision, alle auf Produktionsschlüsseln „Vertrieb kontaktieren" laut den Rate-Limits-Dokumenten. Test-Schlüssel sind auf 20 Anfragen/min und 1.000 Aufrufe/Monat begrenzt.
Fine-Tuning-Gebühren (Training, Hosting, Serving).
Pro-Bild-Preise für Command A Vision und Command A+ Bildeingaben.
Batch-API-Rabatte, aufgeführt aber kein expliziter Tarif.
North-Mini-Code-1.0, erscheint in Rate-Limit-Tabellen; Pro-Token-Tarif nicht zugänglich.

Was das für einen Käufer bedeutet: In dem Moment, in dem Sie Coheres aktuelles Flaggschiff auf $/1M-Token-Basis gegen GPT-5.x oder Claude Sonnet vergleichen möchten, können Sie das nicht, ohne einen Vertriebsanruf zu buchen. Ob das ein Dealbreaker ist, hängt von Ihrer Rolle ab. Für einen Unternehmensarchitekten, der eine Beschaffungsunterlage entwirft, ist es ein Reibungspunkt, aber keine Wand. Für ein kleines Team, das fünf LLM-Anbieter an einem Nachmittag evaluiert, reicht es, Cohere auf der Liste nach unten zu setzen.

Model Vault: Dedizierte Bereitstellungen, genaue Preise

Der Model Vault ist Coheres Dedicated-Instance-Angebot: Sie reservieren Rechenkapazität, die nur Ihre Modelle ausführt, ohne geteilte Mandantschaft. Dies ist auch der einzige Block auf Coheres Preisseite, bei dem die tatsächlichen Dollar-Zahlen im HTML vorhanden sind, sodass wir ihn direkt zitieren können.

Modell	Leistungsstufe	Stündlicher Preis pro Instanz	Monatlicher Preis pro Instanz
Embed 4	Small	$4,00	$2.500
Embed 4	Medium	$5,00	$3.250
Rerank 3.5	Medium	$5,00	$3.250
Rerank 4 Fast	Medium	$5,00	$3.250
Rerank 4 Pro	Medium	$5,00	$3.250
Rerank 4 Pro	Large	$10,00	$6.500

Ein paar Hinweise:

Abrechnung kann stündlich oder commit-basiert (monatlich oder jährlich) erfolgen. Der Monatspreis entspricht ~$8,33/Stunde bei 30×24, daher ist der festgelegte Monatspreis nur günstiger als stündlich, wenn Ihre Nutzung etwa 60 bis 80% des Monats erreicht.
Ein separater Sanity CMS Datenpunkt listet einen Compass-gebundenen Model Vault-Preis von $3,75/Stunde pro Instanz, der nicht in der obigen Haupttabelle erscheint. Es lohnt sich, dies in einem Verkaufsgespräch zu erwähnen, wenn Compass in Ihrem Plan ist.
Kein On-Demand Command-Tier im Model Vault. Wenn Sie dedizierten generativen Durchsatz wollen, befinden Sie sich im Bereich der benutzerdefinierten Bereitstellung.

Model Vault ist die Antwort für einen bestimmten Käufer: „Ich brauche vorhersehbare monatliche Ausgaben für Retrieval in großem Maßstab und möchte nicht, dass meine Workloads einen Multi-Tenant-Pool teilen." Ein typisches RAG-Team, das beispielsweise 500 Embed-Jobs/Stunde und 5.000 Rerank-Anfragen/Minute ausführt, würde zu einem Rerank 4 Pro Medium ($3.250/Monat) plus einem Embed 4 Medium ($3.250/Monat) neigen – etwa $6.500/Monat gesamt, bezahlt als fester Posten statt metered per-Request.

North und Compass: die Enterprise-Plattformen

Der erste Tab von Coheres Preisseite ist Workplace systems und ist der undurchsichtigste Teil der gesamten Preisstory. Zwei Produkte sind dort:

North, Coheres Agentenplattform. Auf der Homepage angepriesen als „Your sovereign AI workplace". Verbindet sich mit Ihren Tools, lässt Benutzer Automatisierungen ausführen und beinhaltet intelligente Suche.
Compass, Coheres Enterprise-Such- und Discovery-System, mit vorgefertigten Datenconnectors, Dokumentenverarbeitung und einem verwalteten Index.

Keiner hat einen öffentlichen Preis. Beide sind „Kontaktieren Sie uns für benutzerdefinierte Unternehmenspreise" mit einem „Demo anfordern"-CTA. Das Lead-Erfassungsformular auf cohere.com/pricing enthält ein Dropdown-Menü für die Bereitstellungspräferenz (AWS, Azure, GCP, OCI, IBM Cloud, Tencent Cloud, Alibaba Cloud, Private Deployment, Cohere Infrastructure (SaaS), Other), was ein fairer Hinweis darauf ist, wie individuell diese Deals typischerweise sind.

North-Agentenplattform zeigt die Automations-Übersicht mit Revenue Scope und Meeting Summarizer Karten, von cohere.com

Was wir basierend auf Gesprächen mit Enterprise-Käufern und öffentlichen Referenz-Deals (Fujitsu, Oracle, RBC, Dell, LG CNS, alle auf dem Cohere Homepage-Logo-Strip) erwarten würden: ein mehrstufiger Beschaffungszyklus, ein sechsstelliges Minimum bei einem Jahrescommitment, dedizierte Solutions-Engineering-Unterstützung und eine benutzerdefinierte Bereitstellungsoberfläche. Wenn Sie ein Fortune 500 mit einem Datensouveränitätsmandat sind, ist das selbstverständlich. Wenn Sie ein 50-köpfiges Support-Team sind, das einfach eine KI möchte, die Tickets priorisiert, ist das nicht Ihre Wahl.

Rezensenten auf PeerSpot weisen auf dasselbe hin: „Cohere bietet Enterprise-Preise für Hochvolumenkunden an, und Sie sollten ihr Vertriebsteam für benutzerdefinierte Preise kontaktieren, wenn Sie monatlich Milliarden von Token verarbeiten oder dedizierte Unterstützung, SLAs oder private Bereitstellungen benötigen."

Preise bei Partner-Clouds

Cohere wird über jeden großen Cloud-Marktplatz verkauft: AWS Bedrock, Amazon SageMaker, Microsoft Azure (AI Foundry), Oracle Cloud Infrastructure, Google Cloud, IBM Cloud, Tencent Cloud, Alibaba Cloud. Die Preise auf jedem sind vom Marktplatz festgelegt, nicht von Cohere, und sind nicht immer identisch mit cohere.com.

Das Überraschendste ist, dass AWS Bedrock reduziert wurde. Der aktuelle On-Demand Cohere-Katalog umfasst nur Embed 4 und Rerank 3.5; Command R, R+ und A sind nicht mehr auf der On-Demand-Liste. Die Command-Familie auf Bedrock ist jetzt nur noch Provisioned Throughput, was eine ganz andere Kostenstruktur hat:

AWS Bedrock: Cohere-Positionen	Preismodell	Preis
Embed 4	Pro 1M Input-Token	$0,12
Rerank 3.5	Pro 1.000 Anfragen	$2,00
Cohere Command	Provisioned Throughput / Stunde (kein Commit)	$49,50
Cohere Command	Provisioned Throughput / Stunde (1-Monat-Commit)	$39,60
Cohere Command	Provisioned Throughput / Stunde (6-Monat-Commit)	$23,77
Cohere Command-Light	Provisioned Throughput / Stunde (kein Commit)	$8,56
Cohere Command-Light	Provisioned Throughput / Stunde (1-Monat-Commit)	$6,85
Embed 3 English	Provisioned Throughput / Stunde (kein Commit)	$7,12
Embed 3 Multilingual	Provisioned Throughput / Stunde (kein Commit)	$7,12

Diese $49,50/Stunde pro Modelleinheit (kein Commit) für Cohere Command entsprechen ~$29.462/Monat pro Einheit. PeerSpots „teuer bei Verwendung aller Oracle-Dienste"-Zitat ist dieselbe Geschichte in einem anderen Tab: Cloud-Marktplatz-Aufschlag ist dort, wo die Budgetüberraschungen liegen.

Azure AI Foundry verkauft Cohere-command-a, Cohere-rerank-v4.0-pro/fast und embed-v-4-0 direkt, aber Pro-Token-Raten sind nicht auf der Docs-Seite. Oracles OCI Pretrained-Models-Dokumentation listet jedes Cohere-Modell auf, das OCI hostet (Command A Reasoning, A Vision, A, R+, R, Embed v4 + v3-Varianten, Rerank 4, Rerank 3.5), aber auch hier sind die Tarife auf einer separaten Preisseite.

Die Faustregel: Wenn Sie kostenbewusst sind, führen Sie Cohere auf der First-Party-Plattform von Cohere aus. Die Marktplätze sind bequem, wenn Sie dort bereits leben, aber der Aufschlag ist real.

Test vs. Produktion: Das Kleingedruckte

Ein paar Mechanismen, die es sich lohnt zu kennen, bevor Sie sich anmelden – alle aus den offiziellen Rate-Limits-Dokumenten und den Preis-FAQs:

Test-Schlüssel sind kostenlos, aber auf 1.000 API-Aufrufe pro Monat und 20 Anfragen/min pro Chat-Modell begrenzt. Sie sind ausdrücklich nicht für den Produktions- oder Kommerzbetrieb zugelassen.
Produktionsschlüssel sind Pay-as-you-go, mit höheren Rate-Limits (500 Anfragen/min für Command A, R, R+, R7B).
Für neuere Modellvarianten (Command A+, A Reasoning, A Translate, A Vision) verhalten sich Produktionsschlüssel wie Test-Schlüssel. Sie müssen sales@cohere.com für echten Produktionszugang kontaktieren. Leicht zu übersehen.
Abrechnungszeitraum: Ende jedes Kalendermonats oder wenn Ihr ausstehender Saldo $250 erreicht, je nachdem, was zuerst eintritt.
Sie werden nur für billed_units berechnet, nicht für die zugrunde liegende Token-Anzahl. Cohere übernimmt die Kosten für alle intern hinzugefügten Steuer-Token. Ihre Dokumentation enthält ein Beispiel, bei dem die tatsächliche tokens-Anzahl 7.596 / 645 beträgt, aber billed_units 6.772 / 248 ist. Klein, aber real.
Konten beginnen als persönlich; Sie müssen eine Organisation einrichten, wenn Sie eine gemeinsame Abrechnung mit Teammitgliedern wünschen.

Das Test-vs.-Produktions-Gate bei Flaggschiff-Modellen ist der Reibungspunkt. Die meisten LLM-Anbieter ermöglichen es Ihnen, GPT-5 oder Claude Sonnet von Anfang an mit einem Self-Serve-Schlüssel zu nutzen. Cohere nicht, und wenn Sie Modelle gegeneinander benchmarken, kann diese Asymmetrie Ihre Tests stillschweigend in Richtung des Modells lenken, das Sie tatsächlich ausführen können.

Praktische Kostenbeispiele

Konkret gesagt. Drei Szenarien:

Szenario 1: Kleine RAG-Pipeline (günstig und unkompliziert)

Sie sind ein 10-köpfiges Ops-Team und bauen einen internen „Frag das Wiki"-Bot. ~5 Mio. Token/Tag Indexierung, ~50.000 Retrieval-Anfragen/Tag, Generierung mit Command R.

Position	Volumen	Tarif	Monatliche Kosten
Embed v4 (Text)	5M Token × 30 Tage = 150M	$0,12 / 1M	$18
Rerank v3.5	50.000 × 30 = 1,5M Suchen	$0,001 / Suche	$1.500
Command R (Input + Output)	200M ein, 50M aus	$0,15 ein / $0,60 aus	$60
Gesamt			~$1.578/Monat

Rerank ist der dominante Posten. Wenn Sie auf Top-5-Rerank statt Top-100 pro Anfrage reduzieren können, sinkt die Rechnung deutlich.

Szenario 2: Mittelgroße Support-Automatisierung (der typische Pitch)

Sie sind ein Support-Team, ~1.000 Tickets/Tag, und bauen einen Deflektions-Bot direkt auf Cohere. Durchschnittliches Ticket = 3.000 Input-Token (Verlauf + KB-Kontext) + 500 Output-Token.

Position	Volumen	Tarif	Monatliche Kosten
Command A (Input)	1.000 × 3.000 × 30 = 90M	$2,50 / 1M	$225
Command A (Output)	1.000 × 500 × 30 = 15M	$10,00 / 1M	$150
Embed + Rerank (KB-Retrieval)	wie Szenario 1, skaliert	gemischt	~$200
API-Gesamt			~$575/Monat
Entwicklerzeit für Aufbau / Wartung	~0,25 bis 0,5 FTE	$10–20k/Monat loaded	$10–20k/Monat

Die $575 in Token sind der kleinste Posten auf der Rechnung. Die tatsächlichen Kosten sind der Ingenieur, der die Prompts schreibt, die Orchestrierung, die Wiederholungen, das Eval-Harness und die On-Call-Rotation, wenn der Bot falsch eskaliert. Was zu… führt.

Szenario 3: Enterprise Dedicated (Model Vault)

Sie sind ein Unternehmen, das RAG über ein 5-Millionen-Dokument-Korpus betreibt, mit vorhersehbarem Retrieval-Volumen.

Position	Tier	Monatliche Kosten
Embed 4 Medium	Dedicated	$3.250
Rerank 4 Pro Medium	Dedicated	$3.250
Command A (per-Token)	API	variabel
Dedicated Retrieval-Grundlage		$6.500/Monat

Fügen Sie einen North- oder Compass-Vertrag hinzu und Sie befinden sich im sechsstelligen Bereich über ein Jahr. Das ist es, worauf die Fujitsu- und Oracle-Referenz-Deals hinweisen.

Eisberg-Illustration mit dem Titel „Was der Aufkleberpreis versteckt" mit Per-Token-API-Raten über dem Wasser und Entwicklerteam, Server und Infrastruktur, Integrationsarbeit und laufende Wartung darunter

Was Nutzer wirklich über die Rechnung sagen

Wir haben echte Praktiker-Stimmen von PeerSpot und dem Hacker News Command R+ Launch-Thread gesammelt. Die Aufteilung ist konsistent und es lohnt sich, sie zu kennen:

„Cohere hat eine kostenlose Version… Sie können die API im Entwicklungsmodus verwenden. Aber wenn Sie in die Produktion gehen, müssen Sie bezahlen… es kann teuer werden." CollinsOmondi, Mobile Developer, PeerSpot Preisthread

„Im Vergleich zu auf dem Markt verfügbaren Modellen sind Coheres Preise, Einrichtungskosten und Lizenzierung besser." Shivam Singh, Senior Solution Architect, PeerSpot Preisthread

„Ich habe Coheres Embed English v3.0 für RAG-Aufgaben verwendet und es schneller, günstiger und reaktionsfähiger als Alternativen gefunden." PeerSpot-Rezensenten-Zusammenfassung

„Meine Erfahrung mit Preisen, Einrichtungskosten und Lizenzierung ist, dass es teuer ist, alle Oracle-Dienste zu nutzen." Senior Data Scientist, PeerSpot Preisthread

Und aus dem Hacker News R+ Launch-Thread (der einen deutlich schärferen Ton hatte):

„[Command-R] war lobotomiert, als der Agent sich auf seine Ergebnisse verließ." irthomasthomas, Hacker News Thread

Was wir daraus schließen würden:

Die Embed- und Rerank-Geschichte ist durchweg positiv. „Schneller, günstiger, reaktionsfähiger" taucht immer wieder in Retrieval-Kontexten auf. Das ist Coheres stärkste Preisgeschichte, und sie wird auf der Marketing-Seite nicht laut genug erzählt.
Bei Command R leben die Preis-Leistungs-Fans. $0,15 / $0,60 für ein 35B-Parameter, 128k-Kontext-Modell ist wirklich gut.
Command R+ bekommt Kritik. Der HN-Thread verankerte R+ bei einem 6x-Preisschritt gegenüber R, und die Community wollte wissen warum. Simon Willisons Antwort lautete: „Es ist ein 104B-Modell, Sie zahlen für die Parameteranzahl, nicht für eine neue Fähigkeitsstufe", was ehrlich ist, aber keine gute Antwort für Käufer, die in erster Linie auf Ausgabequalität achten.
Der echte „Sticker Shock" ist nicht der Pro-Token-Tarif, sondern die TCO. Mehrere Praktiker-Beiträge machen denselben Punkt: „Sie brauchen ein Entwicklerteam, um die App zu bauen, Data Scientists, um die Modelle zu optimieren, und ein IT-Team, um alles zu verwalten."

Dieser letzte Punkt ist es wert, darüber nachzudenken.

Wo Cohere passt, wo nicht

Preise sind eigentlich nicht die Frage. Fit ist es. Coheres Preisgestaltung ist für ein bestimmtes Käuferprofil ausgelegt, und wenn Sie nicht dieser Käufer sind, verfehlt die Frage, ob der Pro-Token-Tarif „gut" oder „teuer" ist, den Punkt.

Entscheidungs-Flowchart mit dem Titel „Einen LLM-Anbieter auswählen" mit einer Sovereign-plus-private-Data-Verzweigung zu Cohere passt (Enterprise Pilot, Benutzerdefinierte Bereitstellung, RAG-Retrieval-Stack) oder Anderswo suchen (Plug-and-Play-Produkt, Support-Team-SaaS, Self-Serve-Käufer)

Cohere ist eine gute Wahl, wenn Sie ein Unternehmen mit folgenden Eigenschaften sind:

Ein Datensouveränitätsmandat (Finanzdienstleistungen, öffentlicher Sektor, Gesundheitswesen, Verteidigung, Telekommunikation).
Ein bestehendes Ingenieurteam, das auf API-Ebene integrieren kann: Prompts schreiben, Orchestrierung aufbauen, Evaluierungen durchführen.
Eine primäre Arbeitslast, die RAG oder retrieval-lastig ist. Der Embed + Rerank + Command R Stack ist wirklich ein Preis-Leistungs-Gewinn, besonders bei mehrsprachigen Inhalten (49 Sprachen bei Command, siehe Homepage).
Eine Multi-Cloud- oder On-Premises-Anforderung. Coheres Bereitstellungsgeschichte (VPC, on-prem, Model Vault, Partner-Clouds) ist dafür gebaut.

Cohere ist die falsche Wahl, wenn Sie:

Ein kleines Team sind, das etwas ab dem ersten Tag und nicht nach drei Monaten des Integrationsaufbaus funktionieren möchte.
Ein Support-, Betriebs- oder Content-Team sind, bei dem die Werteinheit „Ticket bearbeitet" oder „Beitrag veröffentlicht" ist, nicht „Token verarbeitet".
In einer Self-Serve-Weise kostensensibel sind. Die Flagship-Tarife hinter einem Verkaufsanruf zu verstecken bedeutet, dass Sie den gewünschten Vergleich nicht wirklich durchführen können.
Plug-and-Play-KI-Agenten in Helpdesks wie Zendesk, Freshdesk oder Gorgias suchen.

Für das zweite Profil, das den Großteil dessen ist, was wir in echten Käufergesprächen sehen, lautet die Frage nicht „Ist Cohere günstiger als OpenAI pro Token?". Es ist „Kann ich den KI-Wert erhalten, ohne für das Integrationsteam zu zahlen?". Und das ist eine andere Art von Preisgestaltung.

eesel ausprobieren

Wenn Sie bis hierher gekommen sind und ein Support-, Betriebs- oder Content-Team sind, das Cohere gegen eine schlüsselfertige Alternative abwägt, hier ist das ehrliche Angebot.

eesel bietet Ihnen KI-Agenten, die in den Tools leben, die Sie bereits verwenden: Zendesk, Freshdesk, Gorgias, Slack, Gmail, Shopify und hundert andere. Keine Prompts zu entwickeln, keine Orchestrierung aufzubauen, kein Produktionsschlüssel-Verkaufsanruf. Sie verbinden Ihren Helpdesk, briefen den Agenten in einfacher Sprache so, wie Sie einen neuen Mitarbeiter briefen würden, und er beginnt, Tickets zu bearbeiten.

Die Preisgestaltung hat ebenfalls eine andere Form: $0,40 pro Ticket als reguläre Aufgabe, keine Plattformgebühr, keine Pro-Sitz-Gebühren, kein monatliches Minimum. Ein Team mit 1.000 Tickets/Monat zahlt $400. Ein Team mit 100 Tickets/Monat zahlt $40. Sie erhalten ein kostenloses Guthaben von $50 (plus 2 kostenlose Blog-Generierungen), bevor eine Karte erforderlich ist. Vollständige Preise hier.

Wir sind nicht dasselbe Produkt wie Cohere: Cohere verkauft Modelle; eesel verkauft KI-Teammitglieder, die auf Modellen aufbauen. Wenn Ihr Job darin besteht, Infrastruktur für den souveränen KI-Stack eines Fortune 500 zu liefern, ist Cohere die richtige Wahl. Wenn Ihr Job darin besteht, Tier-1-Tickets nächste Woche abzulenken, probieren Sie eesel: Das Onboarding dauert ein paar Minuten und die Pro-Ticket-Rechnung ist einfacher in einem Budget-Meeting zu vertreten als eine Provisioned-Throughput-Position.

Häufig gestellte Fragen

Wie viel kostet Cohere AI pro 1 Mio. Token?

Das hängt vom Modell ab. Über Drittanbieter-Hosts listet Command A und Command R+ (08-2024) beide mit $2,50 Input / $10,00 Output pro 1 Mio. Token, Command R (08-2024) bei $0,15 / $0,60 und Command R7B bei $0,0375 / $0,15. Cohere verbirgt Pro-Token-Raten für Command A+, Command A Reasoning, Translate und Vision hinter sales@cohere.com. Für einen schlüsselfertigen Support-Anwendungsfall, bei dem der Cohere AI Preis pro Token nicht die richtige Einheit ist, sehen Sie sich eesels Pro-Ticket-Preise an.

Gibt es eine kostenlose Version von Cohere AI?

Ja. Coheres Test-API-Schlüssel sind kostenlos und auf 1.000 Aufrufe pro Monat begrenzt, laut den offiziellen Rate-Limits-Dokumenten. Sie sind ratenbegrenzt und ausdrücklich nicht für den Produktionsbetrieb zugelassen. Sobald Sie zu einem Produktionsschlüssel wechseln, wird am Ende jedes Kalendermonats oder wenn Ihr Guthaben $250 erreicht abgerechnet, je nachdem, was zuerst eintritt.

Wie sind die Preise für Cohere Embed und Rerank?

Embed v4 liegt bei ca. $0,12 pro 1 Mio. Input-Token auf AWS Bedrock. Rerank-Preise sind pro Suche: Rerank 4 Pro bei $0,0025, Rerank 4 Fast bei $0,002 und Rerank v3.5 bei $0,001 (oder $2,00 pro 1.000 Anfragen auf Bedrock). Eine „Suche" ist eine Anfrage plus bis zu 100 Dokumente. Für eine tiefere Analyse der Retrieval-Seite, lesen Sie unsere Cohere AI Rezension.

Was kostet der Model Vault?

Model Vault ist Coheres Dedicated-Instance-Option. Die veröffentlichte Tabelle reicht von $4,00/Stunde ($2.500/Monat) für eine Embed 4 Small-Instanz bis zu $10,00/Stunde ($6.500/Monat) für eine Rerank 4 Pro Large-Instanz. Sie können stündlich zahlen oder monatlich verpflichten. Wenn Sie dies gegen ticketbasierte KI abwägen, erklärt unser Leitfaden Cohere AI Alternativen die Pro-Ticket-Rechnung.

Was kosten Coheres Enterprise-Plattformen?

Coheres North-Agentenplattform und das Compass-Suchsystem sind beide nur auf Anfrage ohne veröffentlichte Preise erhältlich. Rechnen Sie mit einem mehrstufigen Verkaufszyklus. Wenn Sie Enterprise-KI-Agenten wollen, die Sie noch am selben Tag mit einem Pro-Ticket-Preis einrichten können, ist die eesel-Plattform dafür gebaut.

Ist Cohere AI günstiger als OpenAI oder Anthropic?

Das hängt vom Modell und der Arbeitslast ab. Command R bei $0,15 / $0,60 pro 1 Mio. ist wirklich günstig und wettbewerbsfähig mit GPT-ähnlichen kleinen Modellen, weshalb der Retrieval-Stack (Embed + Rerank + Command R) bei RAG tendenziell besser abschneidet. Command R+ und Command A bei $2,50 / $10,00 liegen im Bereich mittlerer OpenAI- und Anthropic-Modelle, werden aber von Rezensenten durchgängig unter der Frontier bewertet – siehe unseren Vergleich OpenAI vs. Anthropic API als Kontext.

Welche versteckten Kosten gibt es bei Cohere AI?

Der Listenpreis ist der kleinste Posten. Rezensenten auf PeerSpot und AWS Bedrock-Käufer weisen immer wieder darauf hin, dass die echte Rechnung Entwickler, Integrationsarbeit, laufende Wartung und (bei Bedrock) Provisioned Throughput umfasst, wobei Cohere Command $49,50/Stunde pro Modelleinheit beträgt – etwa $29.000/Monat. Das ist die Lücke zwischen dem Aufkleberpreis und den Gesamtbetriebskosten.

Für wen sind die Cohere-Preise eigentlich gedacht?

Unternehmen, die Datensouveränität, private Bereitstellung und eine benutzerdefinierte Integration benötigen: Finanzdienstleistungen, öffentlicher Sektor, Gesundheitswesen, Telekommunikation. Wenn Sie ein kleineres Support-, Betriebs- oder Content-Team sind, das einfach etwas will, das ab Tag eins funktioniert, wird eine Übersicht über Cohere wahrscheinlich damit enden, dass Sie sich für eine SaaS-Lösung entscheiden, die die Integration für Sie übernimmt. Probieren Sie eesel, wenn das nach Ihnen klingt.

Stellen Sie Ihren KI-Teamkollegen ein

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos testen Demo buchen

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.