Blog / Guides

Ein vollständiger Leitfaden zu den Together AI Preisen im Jahr 2026

Geschrieben von

Rama Adi Nugraha

Geprüft von

Katelin Teen

Zuletzt bearbeitet June 5, 2026

Expertengeprüft

Hero-Illustration zur Aufschlüsselung der Together AI Preise 2026, mit dem Together AI Logomark auf einem warmen, cremeweißen Hintergrund

TL;DR

Together AI berechnet Ihnen Kosten auf vier verschiedene Arten, je nachdem, welches Produkt Sie wählen: pro Million Token bei Serverless ($0,03 bis $4,50 je nach Modell), pro GPU-Stunde auf Dedicated Endpoints ($6,49/Std. für eine H100), pro GPU-Stunde auf gemieteten Clustern ($5,49/Std. H100 On-Demand bis hin zu $3,99/Std. reserviert) und pro Million Token an Trainingsdaten beim Fine-tuning, mit einer separaten stündlichen Hosting-Rechnung im Anschluss. Es gibt keine offiziell beworbene kostenlose Stufe, und die Rate pro Token ist selten das, was die Rechnung in die Höhe treibt - Fine-tuning-Hosting, Dedicated Endpoints, Retries und Ingenieurszeit tun dies. Bei einem bewährten Modell wie Llama 3.3 70B liegt Together preislich im Mittelfeld (Groq ist günstiger, Replicate ist weitaus teurer); bei neueren Modellen wechselt der günstigste Anbieter von Woche zu Woche. Wenn Sie Ihre Wochenenden damit verbringen, Inference, Retrieval, Retries und eine Benutzeroberfläche zusammenzubauen, um eine KI für Kunden bereitzustellen, stellt sich eher die Frage, ob Sie überhaupt Token kaufen sollten oder ob eine aufgabenbasierte Plattform wie eesel Ihnen das Ergebnis einfach für $0,40 pro Ticket liefern würde.

Together AI Preisseite im Jahr 2026 mit Reitern für Serverless, Dedicated, Cluster und Fine-tuning

Wofür Together AI Ihnen tatsächlich Kosten berechnet

Die meisten Beiträge zur Preisgestaltung versuchen, Together AI in ein Schema aus Build / Scale / Enterprise Stufen zu pressen. Die Preisseite funktioniert so jedoch nicht. Es gibt keine benannten Stufen. Es gibt keine Gebühr pro Benutzer. Es gibt keinen monatlichen Mindestumsatz für Self-Service. Was es stattdessen gibt, sind vier parallele Zähler, die jeweils eine andere Verbrauchseinheit messen. Jeder beliebige Arbeitsaufwand kann auf einem, zwei oder allen vier Zählern landen, je nachdem, wie Sie ihn bereitstellen.

Die vier Säulen:

Serverless Inference - Sie rufen einen OpenAI-kompatiblen /v1/chat/completions Endpunkt auf, erhalten eine Antwort und zahlen pro Million Token für Input und Output. Dasselbe gilt für Chat, Vision, Image, Audio, Video, Transkription, Embeddings und Moderation, jeweils mit einer eigenen Rate pro Modell (Together AI Preise).
Dedicated Inference - Together stellt eine Single-Tenant GPU-Instanz für Sie bereit, die Sie rund um die Uhr betriebsbereit halten und pro GPU-Stunde bezahlen. Der Dedicated-Zähler ignoriert das Token-Volumen vollständig; Sie bezahlen für den reservierten Platz, nicht für die Nutzung.
GPU Cluster - Sie mieten die reine NVIDIA-Hardware (8 bis 4.000+ GPUs, über InfiniBand verbunden) On-Demand oder reserviert für bis zu sechs Monate. Dies ist für Teams gedacht, die ihre eigenen Modelle trainieren oder eigene Inference-Engines betreiben.
Fine-tuning - Das Training wird pro Token der Trainingsdaten abgerechnet, skaliert nach Modellgröße und Methode (LoRA, Full FT, DPO). Danach wird das resultierende Modell auf einem Dedicated Endpoint bereitgestellt, was einen eigenen stündlichen Zähler darstellt.

Dies ist wichtig, da die Wahl des richtigen Zählers das größte Sparpotenzial bietet. Ein Startup, das 5 Millionen Token pro Tag mit Llama 3.3 70B verarbeitet, hat auf einem Dedicated Endpoint nichts zu suchen; ein stabiler Produktions-Workload mit 500 Millionen Token pro Tag auf demselben Modell hingegen schon. Together AI CEO Vipul Ved Prakash beschreibt die Plattform als die "AI Acceleration Cloud", die zwischen diesen beiden Welten angesiedelt ist (LinkedIn), und die Preisstruktur spiegelt das wider: Serverless für den Start, Dedicated, wenn die Last vorhersehbar ist, und Cluster, wenn Sie trainieren.

Wie Together AI Sie über seine vier Produktsäulen abrechnet: Serverless-Token, Dedicated GPU-Stunden, GPU-Cluster und Fine-tuning-Trainings-Token plus Hosting

Preise für Serverless Inference

Serverless ist der Einstiegspunkt und der Zähler, den die meisten Teams nutzen werden. Die Chat-Modell-Tabelle auf together.ai/pricing listet die Raten pro Million Token für jedes unterstützte Modell auf, aufgeteilt in Input, Output und (bei einigen Modellen) eine Rate für Cached Input, die deutlich günstiger als die Basisrate ist.

Ein repräsentativer Ausschnitt aus dem Chat-Reiter, wörtlich übernommen (Together AI Preise):

Modell	Input $/M	Output $/M	Cached Input $/M
GLM-5.1	$1,40	$4,40	-
MiniMax M2.7	$0,30	$1,20	$0,06
Kimi K2.6	$1,20	$4,50	$0,20
DeepSeek V4 Pro	$2,10	$4,40	$0,20
DeepSeek V4 Flash	- (kein Preis auf der Seite)	-	-
Qwen3.6-Plus	$0,50	$3,00	-
Qwen3.7-Max	$1,25	$3,75	$0,13
gpt-oss-120B	$0,15	$0,60	-
gpt-oss-20B	$0,05	$0,20	-
Llama 3.3 70B	$1,04	$1,04	-
Qwen3 235B A22B FP8 Throughput	$0,20	$0,60	-
LFM2 24B A2B	$0,03	$0,12	-
Cogito v2.1 671B	$1,25	$1,25	-

Drei Dinge sind an dieser Tabelle besonders bemerkenswert.

Erstens: Das Cached-Input-Pricing ist der Hebel, über den niemand spricht. Die Input-Kosten für DeepSeek V4 Pro sinken von $2,10/M auf $0,20/M, wenn das Prompt-Präfix zwischengespeichert wird - ein Rabatt von 10,5x. Bei Kimi K2.6 sind es 6x, bei MiniMax M2.7 5x. Wenn Ihr Workload einen langen System-Prompt wiederverwendet oder wiederkehrende Benutzerkontexte hat (was bei den meisten Agenten-Loops und RAG-Pipelines der Fall ist), ist die Cached-Rate der eigentliche Preis. Die Nicht-Cached-Zahl in der Tabelle ist der Worst Case.

Zweitens: Die Modell-Welle, auf der Sie reiten, ist wichtiger als der Anbieter. gpt-oss-20B und LFM2 24B stehen auf derselben Preisseite wie DeepSeek V4 Pro und GLM-5.1. Die 100-fache Lücke zwischen $0,03/M (LFM2 Input) und $4,50/M (Kimi K2.6 Output) ist viel größer als die Lücke zwischen Together und seinen Konkurrenten beim gleichen Modell. Die Aussage "Together ist billig" ist nicht hilfreich; "dieses spezifische Modell ist auf Together billig" ist es meistens schon.

Drittens: Vision, Image, Audio und Video haben jeweils separate Zähler pro Modell - Bildmodelle werden pro Megapixel oder pro Bild berechnet (FLUX.2 [pro] kostet $0,03/Bild; Google Imagen 4.0 Ultra kostet $0,06/MP), Videomodelle pro fertigem Video (Sora 2 kostet $0,80, Google Veo 3.0 mit Audio $3,20) und Audio ist aufgeteilt in pro Minute (Whisper Large v3 für $0,0015) und pro 1 Million Zeichen (Cartesia Sonic-3 für $65) (Together AI Preise). Wenn Sie eine multimodale App bauen, nutzen Sie mehrere Zähler gleichzeitig, und Ihre "Together-Rechnung" ist die Summe daraus, nicht eine einzelne Rate.

Der Serverless-Einstieg umfasst auch eine Batch API: Verarbeiten Sie bis zu 30 Milliarden Token pro Modell asynchron bei bis zu 50 % niedrigeren Kosten als bei synchroner Serverless-Nutzung (Batch Inference API Updates 2025). Für Workloads, die keine Echtzeit-Latenz benötigen - Generierung synthetischer Daten, Offline-Klassifizierung, Log-Anreicherung - ist Batch der günstigste offizielle Weg auf der Plattform.

Eine MiniMax M2.7 Modellkarte im Together AI Playground, die Token-Preise von $0,30 Input / $1,20 Output mit Serverless- und Dedicated-Bereitstellungsoptionen sowie Inline-Code zur Inference zeigt, entnommen von Together AI

Together bewirbt die Serverless-Stufe sowohl über die Geschwindigkeit als auch über den Preis. Auf der Inference-Produktseite lauten die veröffentlichten Vergleiche: "bis zu 2,75x schneller" bei Qwen3 235B 2507, "über 65 % schneller" bei Kimi K2 0905 und "2x schneller" bei gpt-oss-20B im Vergleich zum jeweils nächstschnellsten Anbieter im Benchmark. Höhere Token-pro-Sekunde-pro-GPU sind letztlich das, was es Together ermöglicht, weniger zu verlangen und trotzdem profitabel zu sein - es ist dieselbe Hardware, die nur mehr Arbeit pro Sekunde leistet.

Unsere Forscher und Ingenieure setzen alles daran, die KI-Inferenz so weit zu beschleunigen, wie es die Gesetze der Physik zulassen.
Ce Zhang, CTO, via Ryan Pollock auf LinkedIn

Preise für Dedicated Inference

Sobald Ihr Workload aus der geteilten Serverless-Infrastruktur herauswächst - oder, was häufiger vorkommt, sobald unvorhersehbare Latenzen zum Problem für das Produkt werden - ermöglichen Ihnen die Dedicated Endpoints von Together AI, eine Single-Tenant GPU-Instanz bereitzustellen und stündlich zu bezahlen (Together AI Preise):

Hardware	Preis pro Stunde
1× H100 80 GB	$6,49
1× H200 140 GB	Kontaktieren Sie uns
1× HGX B200 180 GB	$11,95

Die Rechnung ist in einer Hinsicht gnadenlos. Eine H100, die 24 Stunden am Tag und 30 Tage im Monat läuft, kostet $4.672,80/Monat pro GPU. Eine B200 im gleichen Zeitraum kostet $8.604. Das Token-Volumen ist irrelevant - selbst bei null Anfragen läuft der Zähler weiter.

In der anderen Hinsicht ist sie jedoch ebenso vorteilhaft. Bei einem ausreichend hohen Anfragevolumen sinken die effektiven Kosten pro Token auf einem Dedicated Endpoint unter die Serverless-Rate. Der Break-even-Punkt hängt vom Modell ab, aber als grobe Faustregel für ein Modell der 70B-Klasse bei Serverless-Kosten von $1,04/M Token in beide Richtungen fangen Sie an zu sparen, wenn Sie mehr als ca. 5 Milliarden Token pro Monat an stetigem, vorhersagbarem Traffic haben. Darunter gewinnt Serverless fast immer bei den Kosten; darüber gewinnt Dedicated und Sie profitieren zusätzlich von konsistenten Latenzen.

Together AI Dedicated Endpoint Dashboard für Kimi K2.5 mit Status online, Hardware 8xH200 140GB, Autoscaling bei 8 von 8 Replikaten, aktiviertem Speculative Decoding und Live-Endpunkt-Analysen für Anfragen und TPS, entnommen von Together AI

Das Forschungsteam von Salesforce ist einer der öffentlich genannten Referenzpunkte für diese Stufe:

Wir sind von Together absolut beeindruckt. Sie haben eine Reduzierung der Latenz um das Zweifache geliefert und unsere Kosten um etwa ein Drittel gesenkt.
Caiming Xiong, VP, Salesforce AI Research, Together AI Inference-Seite

Wenn Sie Dedicated in Betracht ziehen, lautet die Frage, die Sie beantworten müssen, nicht: "Ist die H100 von Together für $6,49/Std. billiger als Anbieter X?" - sondern: "Habe ich einen ausreichend konstanten Workload, sodass es billiger ist, eine GPU rund um die Uhr zu bezahlen, als für Token zu zahlen, die hauptsächlich während der Geschäftszeiten anfallen?" Für viele Teams lautet die ehrliche Antwort: Nein.

Preise für GPU-Cluster - On-Demand vs. Reserviert

Unterhalb der Dedicated Endpoints liegt die elementarste Ebene des Stacks: gemietete GPU-Cluster, die Sie selbst betreiben (gpu-clusters). Hier landen Teams, die ihre eigenen Modelle trainieren, eigene Inference-Engines betreiben oder über die Möglichkeiten von Dedicated Endpoints hinaus skalieren.

Together AI GPU-Cluster-Seite mit H100, H200, B200 und GB200 NVL72 Cluster-Konfigurationen

Preise für On-Demand Cluster (Self-Service, Pay-as-you-go, jederzeit kündbar, bis zu 256 GPUs) (Together AI Preise):

Hardware	Preis pro GPU pro Stunde
NVIDIA HGX H100	$5,49
NVIDIA HGX H200	$6,79
NVIDIA HGX B200	$9,95

Preise für reservierte Cluster sinken mit der Dauer, mit einer maximal veröffentlichten Bindung von 180 Tagen; alles darüber hinaus wird über ein GPU-Cluster-Anfrageformular für individuelle Unternehmenspreise abgewickelt (Together AI Preise):

Hardware	7-30 Tage	31-90 Tage	91-180 Tage	181+ Tage
NVIDIA HGX H100	$4,99	$4,49	$3,99	Kontaktieren Sie uns
NVIDIA HGX H200	$5,95	$4,99	$4,55	Kontaktieren Sie uns
NVIDIA HGX B200	$9,65	$9,35	$9,09	Kontaktieren Sie uns
NVIDIA GB200 NVL72	Kontaktieren Sie uns	Kontaktieren Sie uns	Kontaktieren Sie uns	Kontaktieren Sie uns
NVIDIA GB300 NVL72	Kontaktieren Sie uns	Kontaktieren Sie uns	Kontaktieren Sie uns	Kontaktieren Sie uns

Drei Dinge machen die Cluster-Stufe im Vergleich zur GPU-Miete bei einem Hyperscaler interessant.

Erstens: Bare-Metal-Performance mit durchgängigem InfiniBand-Interconnect. Together wirbt damit, dass "unser InfiniBand-Interconnect die Gradientensynchronisation schnell und den Kommunikations-Overhead gering hält - damit Ihre Trainingsläufe schneller fertig werden, nicht nur größer" (Together AI gpu-clusters). Das ist wichtig, denn ein um 30 % schnellerer Trainingslauf auf derselben Hardware bedeutet effektiv einen Rabatt von 30 % auf denselben Stundensatz.

Zweitens: Die Together Kernel Collection wird mit dem Cluster ausgeliefert. TKC (entwickelt vom Chief Scientist Tri Dao, dem Schöpfer von FlashAttention) ist dieselbe Optimierungsschicht, die die Serverless Inference von Together antreibt, und sie ist auch auf Clustern verfügbar. Der veröffentlichte Benchmark: "Das Training eines Modells mit 70B Parametern (Llama-Architektur, BF16) mit einem optimierten TorchTitan + Together Kernel Collection (TKC) erreichte 15.264 Token/Sekunde/GPU auf NVIDIA HGX B200, gegenüber 8.080 Token/Sekunde auf NVIDIA HGX H100 - ein Sprung von 90 % in der Trainingsgeschwindigkeit" (Together AI gpu-clusters).

GPU-Auslastungsdiagramm eines 21-tägigen Trainingslaufs auf einem Together-Cluster, das eine GPU-Auslastung von über 90 % über den gesamten Zeitraum zeigt, wobei die Step-Time auf TKC deutlich unter der Step-Time auf anderen Kerneln liegt, entnommen von Together AI

Drittens: Speicher ist kein Nebengedanke. Cluster werden mit parallelen Weka- oder VAST-Dateisystemen für $0,16/GiB/Monat ohne Egress-Gebühren ausgeliefert (Together AI Preise). Jeder, der schon einmal aus Frust über S3-Egress-Gebühren bei einem Hyperscaler aufgegeben hat, wird verstehen, warum das wichtig ist.

Together AI bietet die Leistung und Zuverlässigkeit, die wir für hochwertige Bild- und Videogenerierung in Echtzeit in großem Maßstab benötigen.
Victor Perez, Co-Founder, Krea, Together AI gpu-clusters

Fine-tuning Preise - und die Hosting-Kosten, vor denen niemand warnt

Fine-tuning bei Together wird pro Token der Trainingsdaten abgerechnet, nicht pro Epoche und nicht pro GPU-Stunde (Together AI Fine-tuning Docs). Die Rechnung auf der Preisseite ist explizit: "Der Preis basiert auf der Summe der verarbeiteten Token im Fine-tuning-Trainingsdatensatz (Größe des Trainingsdatensatzes × Anzahl der Epochen) zuzüglich etwaiger Token im optionalen Evaluierungsdatensatz (Größe des Validierungsdatensatzes × Anzahl der Evaluierungen)" (Together AI Preise).

Together AI Formular für neuen Fine-tuning-Job, das LoRA als Trainingstyp, SFT vs. DPO Toggle und ein Modell-Dropdown mit Llama Guard 4 12B, Mistral 7B Instruct, Kimi K2.5, Qwen3 Next 80B und DeepSeek R1 zeigt, entnommen von Together AI

Die Standard-Preistabelle skaliert nach der Größe des Basismodells und der Tuning-Methode (Together AI Preise):

Basismodell-Größe	SFT - LoRA	SFT - Full	DPO - LoRA	DPO - Full
Bis zu 16B	$0,48 / M	$0,54 / M	$1,20 / M	$1,35 / M
17B–69B	$1,50 / M	$1,65 / M	$3,75 / M	$4,12 / M
70B–100B	$2,90 / M	$3,20 / M	$7,25 / M	$8,00 / M

Ab 100B Parametern bepreist Together das Fine-tuning pro Modell in einer "spezialisierten" Stufe, oft mit einer Mindestgebühr pro Job (Together AI Preise):

Modell	SFT (LoRA)	DPO (LoRA)	Minimum
DeepSeek-R1 / V3 / V3.1 Familie	$10,00 / M	$25,00 / M	$20,00
GLM-4.6 / 4.7	$9,00 / M	$22,50 / M	$27,00
GLM-5 / GLM-5.1	$40,00 / M	$100,00 / M	$60,00
gpt-oss-120B	$5,00 / M	$12,50 / M	$6,00
Kimi K2 (Thinking / Instruct / Base)	$15,00 / M	$37,50 / M	$60,00
Llama 4 Maverick / Maverick Instruct	$8,00 / M	$20,00 / M	$16,00
Llama 4 Scout	$3,00 / M	$7,50 / M	$6,00
Qwen3-Coder-480B-A35B-Instruct	$9,00 / M	$22,50 / M	$18,00
Qwen3-235B-A22B / Instruct-2507	$6,00 / M	$15,00 / M	Kein Min.
Qwen3.5-122B-A10B	$6,00 / M	$15,00 / M	$10,00
Qwen3.5-397B-A17B	$8,00 / M	$20,00 / M	$22,00

Die obige Tabelle ist diejenige, die am häufigsten zitiert wird. Was viele jedoch vergessen: Sobald das Modell trainiert ist, stellt das Hosting eine separate, laufende Gebühr dar.

Aus der Dokumentation: "Sobald das Training abgeschlossen ist, wird die Inferenz auf einem Dedicated Endpoint ausgeführt" (Together AI Docs). Dieser Dedicated Endpoint wird zu den gleichen Raten wie die Dedicated Inference-Stufe abgerechnet - $6,49/Std. für eine H100 oder $11,95/Std. für eine B200 (Together AI Preise). Ein LoRA auf einer 16B-Basis mag für weniger als einen Dollar pro Million Trainings-Token trainiert werden, aber das Bereitstellen des resultierenden Modells auf einer einzelnen H100 rund um die Uhr kostet etwa $4.700/Monat pro GPU, egal ob in diesem Monat eine einzige Anfrage bearbeitet wird oder nicht.

Dies ist die größte Preisfalle auf der Plattform. Teams kalkulieren routinemäßig: "Das Fine-tuning wird uns $30 für den Durchlauf kosten" - was korrekt ist - und stellen dann fest, dass die Hosting-Rechnung um zwei Größenordnungen höher ausfällt. Planen Sie den gesamten Lebenszyklus, nicht nur den Trainingsschritt.

Ein paar andere Details zum Fine-tuning, die leicht übersehen werden:

Keine beworbene kostenlose Stufe. Jeder Trainingslauf wird ab dem ersten Token pro Token abgerechnet.
LoRA ist der Standard, Full Fine-tuning ist optional. Die Preisunterschiede zwischen LoRA und Full sind gering (ca. $0,30/M in der 70B-Stufe), sodass die Entscheidung meistens wegen der Qualität und nicht wegen der Kosten getroffen wird.
DPO kostet etwa das 2,5-fache von SFT über alle Größenklassen hinweg. Wenn Sie ein Modell an Präferenzen anpassen, kalkulieren Sie entsprechend.
BYOM (Bring Your Own Model) ermöglicht es Ihnen, eine eigene Basis außerhalb des Katalogs hochzuladen. Die Preise für das BYOM-Training fallen in die jeweils passende Standard-Größenkategorie; das Hosting erfolgt zu den üblichen Dedicated-Raten.

Sandbox, Code-Interpreter und Managed Storage

Zwei kleinere Zähler sind erwähnenswert, da sie viele Agenten-Entwickler überraschen.

Code Sandbox ermöglicht es Ihnen, isolierte VM-Sandboxes für KI-Agenten zur Codeausführung zu starten. Die Abrechnung erfolgt pro virtueller CPU und pro GiB Arbeitsspeicher pro Stunde (Together AI Preise):

Ressource	Preis pro Stunde
Pro vCPU	$0,0446
Pro GiB RAM	$0,0149

Eine bescheidene Sandbox mit 4 vCPUs und 8 GiB RAM, die für einen Arbeitstag (8 Stunden) bereitgehalten wird, kostet etwa $2,39 - einzeln betrachtet ein kleiner Betrag, aber für eine Agenten-Flotte, die Dutzende davon parallel startet, können sich die Gesamtkosten schnell summieren.

Together AI Code Sandbox SDK Beispiel, das die Erstellung einer Node-Template-Sandbox zeigt, die verbunden wird, 'npm install' und 'npm run build' ausführt, auf einer Preview-URL bereitgestellt und dann für die spätere Wiederaufnahme in den Ruhezustand versetzt wird, entnommen von Together AI

Code Interpreter ist die leichtere Variante: eine Einzelsitzungs-Sandbox zur Ausführung von LLM-generiertem Code ohne Vorhalteaufwand, bepreist mit $0,03 pro 60-Minuten-Sitzung (Together AI Preise). Dies ist der vernünftige Standard für die meisten Agenten-Tool-Flows.

Managed Storage ist das parallele Dateisystem, das neben den Clustern existiert. Es kostet $0,16 pro GiB pro Monat ohne Egress-Gebühren (Together AI Preise). Ein Arbeitsdatensatz von 10 TB kostet etwa $1.638/Monat - vergleichbar mit einem Hochleistungsdateisystem eines Hyperscalers, aber ohne die Bandbreitenrechnung beim Datenexport.

Was kostenlos ist (und was nicht)

Dieser Teil ist kurz, da es nicht viel gibt.

Keine beworbene kostenlose Stufe auf der öffentlichen Preisseite. Dort werden weder ein Anmeldeguthaben noch ein kostenloser Testzeitraum oder ein monatliches Freikontingent aufgeführt.
Die Batch API ist der einzige direkte Rabattmechanismus: bis zu 50 % Rabatt auf die meisten Chat-Modelle für asynchrone Workloads (Batch Inference API Updates 2025).
Mengenrabatte / Committed-Use-Rabatte existieren, sind aber nicht veröffentlicht - die Seite verweist für Unternehmenspreise auf Kontakt.
Cached Input ist das, was einer Gratisleistung am nächsten kommt: Ein 5- bis 10-facher Rabatt auf Input-Token für ausgewählte Chat-Modelle, wenn Präfixe wiederverwendet werden.

Anwender haben in der Vergangenheit von einem Startguthaben berichtet:

Ein Gratisguthaben von 25 $ reicht weit, wenn selbst die teuersten Modelle nur $0,9/Million Token kosten.
Chris Samiullah, ML Ingenieur, LinkedIn

Dieser Betrag ist derzeit nicht als allgemeine Richtlinie auf der Preisseite veröffentlicht. Wenn Sie ein Budget planen, behandeln Sie das Guthaben eher als "Fragen Sie Ihren Account Manager" und nicht als "garantiert".

Wie Together AI im Vergleich zu Fireworks, Groq, Replicate und anderen abschneidet

Die ehrliche Antwort lautet: "Ist Together am günstigsten?" hängt ganz von dem Modell ab, das Sie verwenden, dem Durchsatz, den Sie benötigen, und davon, ob Sie Serverless oder Dedicated nutzen. Hier ist ein direkter Vergleich für die gängigsten geteilten Modelle, basierend auf den Raten der jeweiligen Anbieter-Preisseiten am 05.06.2026:

Anbieter	Llama 3.3 70B In / Out $/M	DeepSeek R1 In / Out $/M	Mixtral 8x22B In / Out $/M	Gratis-Guthaben	Preismodell
Together AI	$1,04 / $1,04	DeepSeek V4 Pro: $2,10 / $4,40 (Cached $0,20 Input)	Nicht im aktuellen Lineup	Keine beworben; Batch 50 % Rabatt	Per-Token Serverless, per-GPU-Stunde Dedicated
Fireworks AI	$0,90 / $0,90 (>16B Bucket)	DeepSeek V4 Pro: $1,74 / $3,48	$1,20 / $1,20 (MoE 56-176B)	$1 Gratis-Guthaben	Per-Token Serverless, per-GPU-Sekunde On-Demand
Groq	$0,59 / $0,79	Nicht im Lineup	Nicht im Lineup	Gratis Konsolen-Anmeldung	Per-Token Serverless
Replicate	Per Hardware-Sekunde	$3,75 / $10,00	Per Hardware-Sekunde	Keine beworben	Per Hardware-Sekunde + per-Token für ausgewählte Modelle
Anyscale	Eigene Bereitstellung auf H100 für $9,29/Std.	Gleich	Gleich	$100 Guthaben	Pro GPU-Stunde (Anyscale Compute Units)
Modal	Eigenbereitstellung auf H100 ca. $3,95/Std. äquiv.	Gleich	Gleich	$30/Mon. Starter, $100/Mon. Team	Pro Sekunde Compute
Hugging Face	Weiterleitung an Inferenz-Anbieter	Weiterleitung	Weiterleitung	PRO $9/Mon. + gratis ZeroGPU	Pro Stunde Endpoints + Weiterleitung Token
OpenRouter	$0,10 / $0,32	$0,50 / $2,15 (R1 0528)	$2,00 / $6,00	Gratis ratenlimitierte Varianten	Per-Token Marketplace

Einige Muster lassen sich aus dieser Tabelle ableiten.

Raten pro Million Token für Llama 3.3 70B Instruct bei Replicate, Together AI, Fireworks, Groq und OpenRouter

Speziell bei Llama 3.3 70B liegt Together AI im Mittelfeld. Groq ist der günstigste First-Party-Anbieter für dieses beliebte bewährte Modell ($0,59/$0,79), Fireworks folgt ($0,90 pauschal), Together liegt an dritter Stelle ($1,04/$1,04), Replicate listet es gar nicht pro Token auf und OpenRouter - ein Marktplatz, der zum günstigsten Anbieter weiterleitet - unterbietet alle mit $0,10/$0,32. Wenn Ihr Workload aus "viel Llama 3.3 70B Inferenz" besteht, verdienen Groq und der OpenRouter-Marktplatz einen genaueren Blick.

Bei den Modellen der neuen Generation - Kimi K2.6, GLM-5.1, DeepSeek V4, Qwen3.6-Plus - ist Together konkurrenzfähig, aber nicht immer am günstigsten. Fireworks neigt dazu, seine neueren Kimi- und DeepSeek-Modelle einzeln mit Cached-Input-Raten aufzulisten, die die von Together erreichen oder unterbieten. Der Unterschied liegt meist bei 10-30 % und nicht bei der 5- bis 10-fachen Lücke, die manchmal in Marketing-Texten auftaucht.

Für Dedicated GPU-Hosting ist die Landschaft breiter gefächert. Modal unterbietet fast jeden bei der sekundengenauen Abrechnung (H100 ≈ $3,95/Std. Äquivalent bei $0,001097/Sek.). Hugging Face Endpoints veröffentlicht $4,50/Std. für eine H100. Together liegt bei $6,49/Std. für Dedicated Inference, $5,49/Std. für einen On-Demand-Cluster und $3,99/Std. für einen reservierten Cluster (91-180 Tage). Unterschiedliche Produkte, unterschiedliche Abrechnungen - und Ihre tatsächlichen Kosten hängen davon ab, ob Sie die operative Komplexität einer eigenen vLLM-Bereitstellung auf Modal bewältigen können oder ob Sie Together das Hosting eines Modells für Sie überlassen.

Bei Embeddings gehört Together zu den günstigsten Anbietern mit $0,02/M Token (Multilingual e5 large instruct) (Together AI Preise). Together hat in der Vergangenheit mit "bis zu 4x niedrigeren Kosten als OpenAI" bei Embeddings geworben (@togethercompute auf X), und die aktuellen Raten liegen in diesem Bereich.

Für Batch-Workloads ist der 50 % Batch API Rabatt von Together das Hauptargument. Fireworks bietet ebenfalls 50 % Rabatt, ebenso wie Groq. Replicate, Modal und Anyscale haben keine vergleichbare Stufe für asynchrone Rabatte.

Für detailliertere Anbieter-Analysen finden Sie unsere Aufschlüsselungen zu Fireworks AI Preisen, Baseten Preisen und SambaNova Cloud Preisen direkt neben dieser. Die Kurzfassung: Wählen Sie den günstigsten Anbieter für das spezifische Modell, das Sie einsetzen, nicht den günstigsten Anbieter im Abstrakten.

Drei Praxisbeispiele dafür, was Teams tatsächlich zahlen

Token-Mathematik ist billig; die Rechnung am Ende des Monats ist das, was zählt. Hier sind drei Szenarien mit echten Zahlen.

Beispiel 1 - Ein SaaS-Team mit einem produktinternen Chat-Assistenten auf Basis von Llama 3.3 70B

Traffic: 5.000 Konversationen/Tag, durchschnittlich 1.500 Input-Token (System-Prompt + abgerufener Kontext) und 400 Output-Token pro Konversation. Etwa 21 Arbeitstage pro Monat.

Serverless-Rechnung bei Together ($1,04/M Input + $1,04/M Output):

Input: 5.000 × 1.500 × 21 = 157,5M Token × $1,04 = $163,80/Mon.
Output: 5.000 × 400 × 21 = 42M Token × $1,04 = $43,68/Mon.
Gesamt: ca. $207/Mon. für die Inferenz-Zeile

Wenn dasselbe Team stattdessen Groq wählt ($0,59 Input / $0,79 Output):

157,5M × $0,59 + 42M × $0,79 = $92,92 + $33,18 = ca. $126/Mon.

Wenn sie über OpenRouter gehen ($0,10 Input / $0,32 Output):

157,5M × $0,10 + 42M × $0,32 = $15,75 + $13,44 = ca. $29/Mon.

Fazit: Bei diesem Volumen sind die reinen Inferenzkosten so gering, dass die Entscheidung wahrscheinlich aufgrund von Latenz, regionaler Zuverlässigkeit oder Support-Reaktionszeit getroffen wird - nicht wegen der Inferenzrate.

Beispiel 2 - Ein KI-Startup mit einem Kimi K2.6 Agenten-Loop in großem Maßstab

Traffic: 200M Input-Token/Tag, 50M Output-Token/Tag, wobei etwa 80 % des Inputs cachebar sind (langer System-Prompt + wiederverwendete Tool-Definitionen). 30 Tage pro Monat.

Together-Rechnung mit berücksichtigtem Cached-Pricing:

Input (cached): 200M × 0,80 × 30 × $0,20/M = $960/Mon.
Input (uncached): 200M × 0,20 × 30 × $1,20/M = $1.440/Mon.
Output: 50M × 30 × $4,50/M = $6.750/Mon.
Gesamt: ca. $9.150/Mon.

Ohne den Cached-Input-Rabatt würde allein der Input-Teil $7.200 kosten. Der Cached-Hebel ist in diesem Szenario also etwa $5.800/Monat wert. Die meisten Teams unterschätzen, wie groß der Cached-Input-Rabatt ist, da die meisten Preisvergleiche die Uncached-Rate zitieren.

Beispiel 3 - Ein Team, das Llama 4 Scout feinabstimmt und rund um die Uhr hostet

Training: 500M Token Trainingsdaten auf Llama 4 Scout. Aus der spezialisierten Stufe ergibt sich $3,00/M LoRA SFT mit einem Minimum von $6.

Trainingskosten: 500 × $3,00 = $1.500 einmalig

Hosting: 1× H100 Dedicated Endpoint für die Produktion.

$6,49/Std. × 24 Std. × 30 Tage = $4.672,80/Mon., jeden Monat

Gesamtrechnung im ersten Monat: $1.500 + $4.672,80 ≈ $6.173. Ab dem zweiten Monat: $4.673.

Die Trainingskosten scheinen das Hauptargument zu sein. Die Hosting-Kosten sind die tatsächliche monatliche Rechnung. Wenn Sie das feinabgestimmte Modell auf bestehender Dedicated-Kapazität hosten können oder wenn Ihr Traffic Serverless auf dem Basismodell + gezieltes Prompt-Engineering statt eines vollständigen Fine-tunings rechtfertigt, können Sie die Zeile von $4.673 komplett streichen. Planen Sie den Lebenszyklus.

Was in der Rate pro Token enthalten ist und was nicht: GPU-Rechenleistung und OpenAI-kompatibler API-Zugang auf der einen Seite, Dedicated Hosting, Embeddings, Retries, Storage und Ingenieurszeit auf der anderen

Wo die Preise von Together Teams unvorbereitet getroffen haben

Der konsistenteste Kritikpunkt in den negativen Bewertungen auf G2 und Trustpilot betrifft nicht die Raten selbst, sondern die Abrechnungsmechanismen. Drei spezifische Beschwerden treten immer wieder auf.

Nicht erstattete Autorisierungsgebühren. Mehrere Trustpilot-Rezensenten beschreiben, dass beim Hinzufügen einer Kreditkarte eine Autorisierungsgebühr von $1 erhoben wurde, die eigentlich rückgängig gemacht werden sollte, aber nie erstattet wurde:

Beim Hinzufügen einer Kreditkarte hieß es ausdrücklich: „Es wird eine sofortige Gebühr von $1 zur Autorisierung erhoben, die wieder gutgeschrieben wird.“ Ich habe meine Kreditkarte hinzugefügt, mir wurde $1 berechnet, aber ich habe es nie zurückerhalten.
Trustpilot-Rezensent, Together AI auf Trustpilot

Abbuchungen in kurzen Intervallen und mangelhafte Erstattungsabwicklung. Ein weiterer Thread zu Abrechnungsmustern:

Die Kreditkarte wurde im Sekundentakt mit seltsamen Beträgen belastet - ich musste die Karte notfallmäßig sperren. Support nicht erreichbar.
Trustpilot-Rezensent, Together AI auf Trustpilot

Nach 2 Wochen haben sie das verbleibende Guthaben auf meinem Prepaid-Konto immer noch nicht zurückerstattet, ebenso wenig wie den Betrag für die Fehlersuche bei dem deaktivierten API-Schlüssel.
G2-Rezensent, Together AI auf G2

Dies sind keine typischen Erfahrungen für den Durchschnittskunden - die meisten G2-Bewertungen sind positiv - aber sie sind konsistent genug, dass die negativen Cluster eindeutig um Abrechnung und Support-Antworten kreisen, nicht um fehlende Funktionen. Wenn Sie ein kleines Team ohne Account Manager sind, richten Sie eine separate Firmenkarte mit einem engen Limit ein und laden Sie keine großen Guthabenbeträge im Voraus auf.

Überraschung beim Fine-tuning-Hosting. Wie oben erwähnt, aber eine Wiederholung wert: Die Kosten für das Betreiben eines feinabgestimmten Modells betragen bei jedem vernünftigen monatlichen Volumen oft das 50- bis 200-fache der Kosten für das Training. Dies trifft viele Teams unvorbereitet. Der Dedicated-Endpoint-Zähler pausiert nicht, wenn das Modell im Leerlauf ist.

Ingenieurszeit ist der größte unsichtbare Kostenfaktor. Aus einer wiederkehrenden Kritik von Anwendern auf LinkedIn und X zum Thema Together AI Preise:

Die Nutzung von Together AI ist nicht gerade ein Plug-and-Play-Erlebnis. Es erfordert eine beträchtliche Menge an Entwicklerzeit, um die API zu integrieren, eine Anwendung drumherum zu bauen und dieses System dann über die Zeit zu warten. Diese Engineering-Kosten können sich schnell summieren und sind oft viel höher als die API-Nutzung selbst.
Wiederkehrende Kritik von Anwendern aus LinkedIn / X Diskussionen über Together AI Preise

Dies ist kein spezieller Vorwurf gegen Together; es gilt für jede reine API-Inferenzplattform. Wenn die Zeit Ihres Ingenieurteams nicht kostenlos ist, sollte die Kalkulation, die Together ($1,04/M Llama 3.3 70B) mit Groq ($0,59/M Llama 3.3 70B) vergleicht, auch die Ingenieurwochen enthalten, die für Authentifizierung, Retry/Backoff, Observability, Validierung strukturierter Ausgaben, Prompt-Versionierung, Eval-Pipelines und Rufbereitschaft benötigt werden. Für viele Teams stellen diese Posten die Inferenzkosten völlig in den Schatten.

Wann Together AI die richtige Wahl ist - und wann nicht

Wo die Preisgestaltung von Together punktet:

Sie betreiben feinabgestimmte Open-Source-Modelle mit vorhersagbarem, stabilem Produktions-Traffic. Dedicated Endpoints für $6,49/Std. oder reservierte Cluster für $3,99/Std. pro H100 sind konkurrenzfähig zu GPU-Mieten bei Hyperscalern und kosten bei gleicher Qualität nur einen Bruchteil proprietärer APIs.
Sie benötigen GPU-Cluster mit InfiniBand, ohne Ihr eigenes Rechenzentrum aufzubauen. Die Bandbreite von 8 bis 4.000+ GPUs an über 25 Standorten sowie der Leistungsvorsprung durch die Together Kernel Collection sind außerhalb der größten Hyperscaler absolut konkurrenzfähig (gpu-clusters).
Sie entwickeln multimodale Anwendungen und möchten eine einzige API. Die Serverless-Stufe deckt Chat, Vision, Image, Audio, Video, Transkription, Embeddings und Moderation ab, sodass Sie nicht Konten bei sechs verschiedenen Anbietern verknüpfen müssen.
Sie führen große asynchrone / Batch-Workloads aus. Der 50 % Batch API Rabatt zusätzlich zu den ohnehin schon wettbewerbsfähigen Serverless-Raten ist schwer zu schlagen für Offline-Zusammenfassungen, Generierung synthetischer Daten, Log-Anreicherung und Klassifizierung im großen Stil.

Wo die Preisgestaltung von Together das falsche Werkzeug ist:

Sie benötigen einfach den günstigsten Llama 3.3 70B Endpunkt, den man für Geld kaufen kann. Groq ist bei diesem speziellen Modell schneller und günstiger. OpenRouter ist sogar noch günstiger. Together liegt bei älteren Modellen im Mittelfeld.
Sie sind ein kleines Team, das einen verwalteten KI-Agenten für einen spezifischen Bereich sucht - Support-Tickets, Sales-Chat, interne Hilfe - und Sie möchten Inferenz + Retrieval + Tool-Nutzung + UI + Eval nicht selbst zusammenbauen. Hier ist eine ergebnisorientierte Plattform sinnvoller; dazu gleich mehr.
Sie möchten eine vorhersehbare, gedeckelte Preisgestaltung. Pay-as-you-go über mehrere Zähler ist schwer im Voraus zu prognostizieren. Ohne Ausgabenlimit kann ein außer Kontrolle geratener Agenten-Loop echtes Geld kosten, bevor es jemand bemerkt.
Sie benötigen ein garantiertes SLA für die Reaktionszeit des Supports. Mehrere negative Bewertungen kritisieren die Reaktionsfähigkeit des Supports bei Abrechnungsstreitigkeiten, was man vorab in einem Unternehmensvertrag aushandeln sollte.

Für tiefergehende Vergleiche alternativer Anbieter siehe unsere Zusammenstellung von Together AI Alternativen, den Together AI Review und den umfassenden Was ist Together AI Leitfaden.

Testen Sie eesel, wenn Sie lieber Ergebnisse als Token kaufen möchten

Ein Beitrag über die Preise von Together AI ist fast immer ein Beitrag über die Rohstoffe eines KI-Produkts - Token, GPU-Stunden, Inferenz-Latenz, Fine-tuning-Trainings-Token. Das sind die richtigen Bausteine, wenn Sie ein Unternehmen für Basismodelle oder eine eigene Inferenz-Engine aufbauen. Es sind jedoch die falschen Bausteine, wenn Sie eigentlich nur einen funktionierenden KI-Agenten in Ihren bestehenden Tools haben möchten.

eesel AI Helpdesk Dashboard Übersicht, die die All-in-One KI-Agenten-Plattform zeigt

eesel verfolgt den entgegengesetzten Ansatz: Preisgestaltung pro Aufgabe für einen voll verwalteten KI-Teamkollegen, der in den Helpdesks, Chat-Apps und Posteingängen läuft, die Sie bereits nutzen (Zendesk, Freshdesk, Intercom-Integration, Slack, Gmail, Shopify und über 100 andere). Ein Support-Ticket kostet $0,40. Eine Frage im Dashboard ist kostenlos. Die Erstellung eines langen Blogbeitrags kostet $4. Inferenz, Retrieval, Prompt-Iteration, Retries, Eval und Observability sind alle in dieser Zahl enthalten - Sie sehen sie nicht auf der Rechnung und müssen sie nicht selbst bauen.

Stellen Sie KI-Teamkollegen ein. Vollständig autonome und unglaublich fähige Teamkollegen, die in Ihren bestehenden Apps leben und in wenigen Minuten einsatzbereit sind.
eesel.ai Homepage

Ein Vergleich für das SaaS-Team aus Beispiel 1 - 5.000 Konversationen/Tag, produktinterner Chat-Assistent. Bei Together liegen die Inferenzkosten bei ca. $207/Mon. plus der Ingenieurszeit für Retrieval, Retry-Logik, Output-Validierung, Prompt-Versionierung und Analysen. Bei eesel kosten dieselben 5.000 Konversationen × 21 Tage = 105.000 Aufgaben/Mon. bei $0,40 pro Stück = $42.000/Mon. für dasselbe Ergebnis - auf dem Papier viel teurer, aber es beinhaltet ein funktionierendes End-to-End-Produkt und ein SLA für die Lösungsrate. Die richtige Antwort hängt davon ab, ob Ihr Team seine Zeit besser mit dem Aufbau von Infrastruktur oder dem Aufbau des Produkts verbringt.

Für die meisten Teams, bei denen KI-Support, KI-Chat oder KI-Inhalte das Ergebnis und nicht die Kerntechnologie sind, gewinnt das Pro-Aufgabe-Modell. Mit dem 50-$-Gratistest von eesel können Sie einen echten Workload ausprobieren - einen Helpdesk-Agenten, einen Blog-Schreiber, einen E-Commerce-Agenten - ohne Kreditkarte. Der Rabatt für ein Jahresabonnement beträgt 25 %, wenn Sie mehr als $300/Monat ausgeben. Keine Gebühr pro Sitzung, keine Plattformgebühr für Self-Service, kein monatlicher Mindestumsatz.

Wenn Sie bereits Together AI nutzen und mit dem Angebot zufrieden sind, sollten Sie dabei bleiben. Wenn Sie Together AI nutzen, weil Sie keine höherwertige Alternative finden konnten - genau für diese Lücke wurde eesel gebaut.

Häufig gestellte Fragen

Wie viel kostet die Nutzung von Together AI im Jahr 2026?

Das hängt davon ab, welches Produkt Sie verwenden. Serverless Inference reicht von $0,03/M Token (LFM2 24B) bis $4,50/M Output (Kimi K2.6), wobei die meisten Chat-Modelle für die Produktion zwischen $0,50/M und $2,10/M für den Input liegen. Dedicated H100 Endpunkte kosten $6,49/Std., On-Demand GPU-Cluster beginnen bei $5,49/Std. für eine H100, und Fine-tuning wird pro Trainings-Token berechnet ($0,48–$3,20/M für die Standard-Stufe), zuzüglich einer separaten stündlichen Hosting-Gebühr im Anschluss. Die vollständige Aufschlüsselung finden Sie unter together.ai/pricing.

Bietet Together AI eine kostenlose Stufe oder Startguthaben an?

Auf der öffentlichen Preisseite wird keine kostenlose Stufe beworben, und es ist kein Betrag für ein Anmeldeguthaben direkt aufgeführt. Der einzige Rabattmechanismus auf der Seite selbst ist der Batch API Umschalter (bis zu 50 % Rabatt auf die meisten Chat-Modelle). In Beiträgen von Anwendern wurde in der Vergangenheit ein Einführungs-Guthaben von 25 $ erwähnt (Chris Samiullah auf LinkedIn), aber dies ist aktuell nicht auf der Preisseite veröffentlicht.

Wie funktioniert die Preisgestaltung für Together AI Fine-tuning?

Fine-tuning wird pro Token der Trainingsdaten abgerechnet, skaliert nach Modellgröße und Methode. LoRA SFT auf einer 16B-Basis kostet $0,48/M Token; vollständiges Fine-tuning auf einer 70-100B-Basis kostet $3,20/M; DPO auf einer 70-100B-Basis kostet $8,00/M. Spezialisierte Modelle wie DeepSeek-R1 ($10/M LoRA) und GLM-5 ($40/M LoRA, Minimum $60) werden individuell bepreist. Das Hosting des feinabgestimmten Modells erfolgt separat - es läuft auf einem Dedicated Endpoint für $6,49/Std. für eine H100, was sich auf etwa $4.700/Monat summiert, wenn es rund um die Uhr läuft.

Ist Together AI günstiger als Fireworks AI, Groq oder Replicate?

Das kommt auf das Modell an. Bei Llama 3.3 70B ist Groq mit $0,59/M Input und $0,79/M Output (groq.com/pricing) am günstigsten, Fireworks berechnet pauschal $0,90/M (docs.fireworks.ai), und Together AI verlangt $1,04/M in beide Richtungen. Beim neueren Kimi K2.6 liegen Together und Fireworks fast gleichauf. Das Hosting von DeepSeek R1 bei Replicate ist mit $3,75/$10,00 pro Million Token der Ausreißer. Der preiswerteste Anbieter hängt ganz davon ab, welches Modell Sie tatsächlich ausführen.

Welche versteckten Kosten sollte ich bei Together AI beachten?

Vier Punkte treten immer wieder auf. (1) Dedicated-Endpoint-Hosting für feinabgestimmte Modelle - $6,49/Std. × 24 × 30 ≈ $4.700/Monat pro H100, unabhängig vom Token-Volumen. (2) Wiederholungsversuche (Retries) und fehlgeschlagene Aufrufe zählen weiterhin zur Token-Abrechnung. (3) Embeddings, Rerank, Audio- und Bild-Messwerte werden getrennt von der Chat-Token-Abrechnung erfasst. (4) Die Zeit für die technische Integration übersteigt oft die eigentlichen API-Ausgaben, ein wiederkehrender Kritikpunkt in G2-Bewertungen und Trustpilot-Threads. Wenn Sie nicht alles selbst zusammenbauen möchten, verwandelt eine ergebnisorientierte Plattform wie eesel denselben Arbeitsaufwand in pauschale $0,40 pro Support-Ticket.

Stellen Sie Ihren KI-Teamkollegen ein

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos testen Demo buchen

Share this article

Article by

Rama Adi Nugraha

Rama is a software engineer at eesel AI with two years of experience writing about B2B SaaS, AI tools, and customer support technology. Based in Bali, Indonesia, he brings a developer's perspective to product comparisons — cutting through marketing copy to what the integrations and APIs actually do.