llm-opsmulti-agentlitellmeu-sovereign

EU-souveräne agentische Coding-Umgebung

Eine kontrollierbare, EU-souveräne Umgebung für agentisches Coding: LiteLLM-Tier-Routing über on-device und EU-managed Anbieter (jedes OpenAI-kompatible Backend austauschbar), ein adversarielles Reasoning/Ausführungs-Gate und ein einziges Gateway-Guardrail.

Eine funktionierende agentische Umgebung, die LLM- und cloud-agnostisch ist: das Default-Routing ist vollständig EU-souverän — on-device plus EU-managed Anbieter, kein US-Dienst im Pfad — mit jedem Backend austauschbar hinter einem Gateway (für ein Deployment habe ich sie auf AWS angepasst). Deterministisches Routing und ein zentrales Cost-Guardrail, komponiert aus Marktkomponenten statt maßgeschneiderten Pipelines.

5 Model-Tiers

1 Gateway-Guardrail

Agentische Coding-Tools, die Code und Kontext durch US-kontrollierte Clouds routen, passen nicht zu souveräner oder öffentliche-Sektor-Arbeit. Diese Umgebung hält Inferenz in der EU, trennt Reasoning von Ausführung mit einem adversariellen Gate und klemmt Kosten einmal am Gateway statt in jedem Client — komponiert aus Marktkomponenten statt einem maßgeschneiderten Framework.

Diese Seite behandelt die Architektur und die bewussten Trade-offs. Ein funktionierendes Setup mittlerer bis hoher Reife — Integration statt Erfindung.

Reasoning und Ausführung sind separate Aufrufe, gegated von einem adversariellen Challenger; beide routen durch ein LiteLLM-Gateway mit einem einzigen Cost-Guardrail zu on-device und EU-managed Anbietern, jedes OpenAI-kompatible Backend austauschbar.

Hintergrund

Souveräne und öffentliche-Sektor-Arbeit schließt agentisches Tooling aus, das Code und Kontext durch US-kontrollierte Clouds sendet. Die Umgebung wurde gebaut, um Inferenz in der EU zu halten und dabei kontrollierbar zu bleiben — und um den häufigen Fehlschlag zu vermeiden, einen Agenten seine eigene Arbeit benoten zu lassen.

Design-Entscheidungen

Tier-Routing über fünf Model-Tiers via ein einziges LiteLLM-Gateway — on-device (Ollama) und EU-managed (Mistral, Scaleway) als Default, jedes OpenAI-kompatible Backend austauschbar — sodass Modellwahl eine Ein-Zeilen-Routing-Entscheidung ist und Inferenz in-Region oder on-device bleibt.

Reasoning wird von Ausführung durch ein adversarielles „Challenger"-Gate getrennt — ein separater Aufruf, dessen Aufgabe es ist, Widerstand zu leisten, bevor Code geschrieben wird, statt sich auf ein Modell zu verlassen, das selbst reflektiert. Die Grenze ist explizit: das hebt die Strenge, nicht die Modellfähigkeit.

Kosten werden einmal geklemmt, am Gateway, für jeden Client — ein Guardrail statt jeden Consumer zu fixen. Hebel statt Wiederholung.

Memory ist eine versionierte Single Source of Truth, sodass Kontext reproduzierbar ist statt ambient.

Operative Überlegungen

Komponiert aus Marktkomponenten (LiteLLM, bestehende Anbieter) statt einem maßgeschneiderten Orchestrierungs-Framework — eine bewusste Integrieren-statt-Bauen-Entscheidung, mit einer expliziten Grenze gegen das Neu-Implementieren dessen, was bereits existiert.

Eine funktionierende Umgebung mittlerer bis hoher Reife — der Wert ist die Architektur (souveränes Routing, Reasoning/Ausführungs-Trennung, zentrales Guardrail), kein Track-Record im Produktionsmaßstab.

Möchten Sie das vollständige Bild hinter diesem System? Nehmen Sie Kontakt auf — oder sehen Sie sich die Engineering-Prinzipien an, die durch alle laufen.

Kontakt aufnehmen Engineering-Prinzipien