03. April 202613 Min Lesezeit

LLM API Integration Patterns — REST, Streaming, Function Calling

REST, Streaming und Function Calling im Vergleich. Wie du LLMs zuverlässig in bestehende Systeme integrierst — mit Architektur-Patterns, Fehlerbehandlung und dem zentralen LLM-Gateway-Konzept.

LLMAPIArchitekturAgentic WorkflowsKI-Infrastruktur

Dein erster LLM-API-Call hat 200ms gedauert und eine perfekte Antwort geliefert. In der Demo. Mit einem User. In Produktion, mit 500 gleichzeitigen Anfragen, sieht die Welt anders aus: Timeouts nach 30 Sekunden, Rate Limits bei 60 RPM, inkonsistente Antwortformate und ein User, der auf einen leeren Bildschirm starrt, weil du Streaming nicht implementiert hast.

Die 3 Integrationsmuster

Pattern 1: Synchrones REST (Request-Response)

Sende eine Anfrage, warte auf die vollständige Antwort.

Wann verwenden: Backend-Prozesse ohne User-Interaktion (Batch-Verarbeitung), kurze Antworten (Klassifikation, Extraktion), wenn die gesamte Antwort benötigt wird.

Vorteile: Einfachste Implementierung, einfaches Error Handling (HTTP Status Codes), einfaches Caching.

Nachteile: User wartet auf vollständige Generierung (bei langen Antworten: 5–30 Sekunden), Timeout-Risiko.

Pattern 2: Streaming (Server-Sent Events)

Die Antwort wird Token für Token gestreamt, während sie generiert wird.

Wann verwenden: Chat-Interfaces, lange Antworten, immer wenn ein Mensch auf die Antwort wartet.

Vorteile: Time-to-First-Token typischerweise unter 500ms, deutlich bessere UX, kein Timeout-Risiko.

Best Practices: Token-Buffer für wortweise statt zeichenweise Anzeige. Kopie des gesamten Streams für Logging halten. Mid-Stream-Fehler: bisherige Antwort + Fehlermeldung zeigen.

Pattern 3: Function Calling (Tool Use)

Das LLM entscheidet, welche Funktionen es aufrufen muss, und liefert strukturierte Parameter zurück.

Wann verwenden: Agentic Workflows, strukturierte Datenextraktion (JSON statt Freitext), Multi-Step-Prozesse.

Sicherheits-Regeln: NIEMALS das LLM direkte Datenbankzugriffe oder System-Commands ausführen lassen. Jeder Tool Call muss validiert und autorisiert werden. Maximale Anzahl an Tool Calls pro Anfrage definieren.

Enterprise-Architektur: Der LLM Gateway

In Produktion sollte kein Service direkt mit der LLM-API kommunizieren. Stattdessen: Ein zentraler LLM Gateway.

Was der Gateway macht:

Routing: Anfragen an den richtigen Provider/Modell weiterleiten
Authentication: API-Key-Management zentral statt in jedem Service
Rate Limiting: Zentrale Kontrolle über Request-Volumen
Caching: Identische Anfragen aus dem Cache beantworten
Fallback: Bei Provider-Ausfall automatisch auf Alternative wechseln
Cost Tracking: Token-Verbrauch pro Service/Team/User tracken

Open-Source-Optionen: LiteLLM, Portkey, Ludwig Gateway

Retry-Strategien

Fehler	HTTP Code	Strategie	Max Retries
Rate Limit	429	Exponential Backoff (1s, 2s, 4s, 8s)	5
Server Error	500/503	Retry nach 2s, dann Fallback-Provider	3
Timeout	408/504	Retry mit kürzerer max_tokens	2
Context Length	400	Input kürzen, dann Retry	1

Circuit Breaker Pattern: Wenn ein Provider mehr als 50% der Anfragen in den letzten 60 Sekunden fehlschlägt: Circuit öffnen, alle Anfragen an Fallback-Provider routen.

Caching: Bis zu 70% Kostenreduktion

Semantic Caching: Statt exakter String-Matches, nutze Embedding-basiertes Caching. Berechne den Embedding-Vektor der Anfrage, suche im Cache nach semantisch ähnlichen Anfragen (Cosine Similarity > 0.95). Ergebnis: 30–70% weniger API-Calls bei typischen Support- und FAQ-Workloads.

Multi-Provider-Strategie

Use Case	Primary	Fallback	Kriterium
Chat (komplex)	GPT-4o / Claude 3.5	Gemini Pro	Qualität
Chat (einfach)	GPT-4o-mini	Claude Haiku	Kosten
Klassifikation	Claude Haiku	GPT-4o-mini	Latenz
Code-Generierung	Claude 3.5 Sonnet	GPT-4o	Qualität

Die LLM-API-Integration ist nicht der spannendste Teil eines KI-Projekts. Aber sie ist der Teil, der darüber entscheidet, ob dein System in Produktion überlebt.

Verwandte Artikel

Newsletter

KI im Sales — ohne Buzzwords

Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.

Nächster Schritt

Wenn du KI sinnvoll nutzen willst — nicht als Trend, sondern als Leistungshebel

Dann lass uns herausfinden, wo für dein Team die relevanten Produktivitätshebel liegen und wie daraus eine Arbeitsweise wird, die im Alltag wirklich funktioniert.

hello@merlinmechler.de