Legal Tech·24. April 2026·13 Min. Lesezeit

RAG vs ChatGPT im Recht: Warum Anwälte mehr als einen Chatbot brauchen

Prof. Dr. Markus Klein

Legal Tech Researcher

Im Juni 2023 wurde der New Yorker Anwalt Steven Schwartz zu einer Geldstrafe verurteilt. Sein Vergehen: Er hatte ChatGPT für juristische Recherche genutzt und sechs Gerichtsentscheidungen in seinem Schriftsatz zitiert, die nicht existierten. Der Chatbot hatte sie frei erfunden, inklusive plausibler Aktenzeichen und Urteilsbegründungen. Der Fall Mata v. Avianca wurde zum Warnsignal für die gesamte Anwaltsbranche.

Was in den USA passiert ist, kann morgen in Deutschland passieren. Ein Anwalt fragt ChatGPT nach der Verjährungsfrist bei Werkvertragsansprüchen und erhält eine Antwort mit § 634a BGB, kombiniert mit einer Frist, die es in dieser Form nicht gibt. Klingt plausibel, ist aber falsch. Genau hier liegt der Unterschied zwischen generischer KI und RAG-Technologie — und genau darum geht es bei der Debatte RAG vs ChatGPT im Recht.

Dieser Artikel erklärt, warum Retrieval Augmented Generation für Anwälte die sicherere Technologie ist, wie sie funktioniert und worauf Kanzleien bei der Auswahl achten sollten. Keine Informatik-Vorlesung, sondern eine praxisnahe Einordnung für Jurist*innen.

Was ChatGPT im Recht falsch macht — und warum

ChatGPT und ähnliche Large Language Models (LLMs) funktionieren grundsätzlich anders als die meisten Anwälte vermuten. Sie durchsuchen keine Datenbank. Sie haben keinen Zugriff auf Gesetzestexte. Stattdessen generieren sie Text, der statistisch wahrscheinlich klingt, basierend auf Mustern aus Milliarden von Trainingsdokumenten.

Für einen Blogpost über Kochtipps ist das unproblematisch. Für juristische Recherche ist es gefährlich.

Das Halluzinations-Problem

Wenn ChatGPT eine juristische Frage beantwortet, passiert Folgendes:

—
Das Modell erkennt das Thema (z. B. Arbeitsrecht, Kündigung)
—
Es generiert eine Antwort, die sprachlich und strukturell nach einer juristischen Analyse aussieht
—
Es fügt Paragraphen-Verweise ein, die plausibel wirken
—
Es hat keine Möglichkeit zu prüfen, ob diese Verweise korrekt sind

Das Ergebnis sind sogenannte Halluzinationen: inhaltlich überzeugend formulierte Aussagen, die faktisch falsch sind. Im juristischen Kontext bedeutet das erfundene Paragraphen, falsche Fristen, nicht existierende Urteile oder Normen, die zwar existieren, aber in einem völlig anderen Kontext gelten.

Für Anwälte, die nach § 43e BRAO zur sorgfältigen Auswahl und Überwachung von Dienstleistern verpflichtet sind, ist das kein akzeptables Risiko. Wenn Sie verstehen möchten, wie KI in der juristischen Recherche heute tatsächlich funktioniert, lohnt sich ein Blick auf die technischen Unterschiede.

Was RAG-Technologie anders macht

RAG steht für Retrieval Augmented Generation, auf Deutsch: abrufgestützte Generierung. Der Name beschreibt exakt, was passiert. Im Gegensatz zu ChatGPT generiert ein RAG-System Antworten nicht aus dem Gedächtnis, sondern auf Basis konkret abgerufener Dokumente.

So funktioniert RAG in drei Schritten

Schritt 1 — Retrieval (Abruf): Das System durchsucht eine kuratierte Datenbank, zum Beispiel 150+ vollständig indexierte deutsche Bundesgesetze. Es identifiziert die relevanten Normen für die gestellte Frage.

Schritt 2 — Augmentation (Anreicherung): Die gefundenen Gesetzestexte werden dem Sprachmodell als Kontext mitgegeben. Das Modell antwortet nicht mehr „aus dem Kopf“, sondern auf Basis realer Rechtstexte.

Schritt 3 — Generation (Erzeugung): Das Sprachmodell formuliert eine Analyse, die auf den tatsächlich existierenden Normen basiert. Jeder zitierte Paragraph existiert und ist nachprüfbar.

Der entscheidende Unterschied: Bei RAG vs ChatGPT im Recht arbeitet RAG mit echten Quellen, nicht mit statistischen Vermutungen. Das Ergebnis sind Analysen mit exakten Paragraphen-Verweisen, die Sie in der Lulius Kanzlei-Suite selbst überprüfen können.

Direktvergleich: RAG vs ChatGPT im Recht

Kriterium	ChatGPT (generische KI)	RAG-basierte Legal AI
Datengrundlage	Trainingskorpus (Internet)	Indexierte Bundesgesetze
Paragraphen-Verweise	Oft erfunden (Halluzinationen)	Verifiziert aus Quelldatenbank
Aktualität	Wissensstichtag des Trainings	Aktueller Gesetzesstand
Deutsches Recht	Generisch, kein Fokus	Spezialisiert auf 150+ Bundesgesetze
Gutachtenstil	Kann simuliert werden, ohne Gewähr	Strukturierte Ausgabe (Obersatz, Definition, Subsumtion, Ergebnis)
DSGVO-Konformität	Kritisch (US-Server, Datentraining)	EU-Hosting, kein KI-Training mit Nutzerdaten
Nachprüfbarkeit	Schwer bis unmöglich	Quellenangaben verifizierbar

Praxisfall: Wie Halluzinationen eine Kanzlei treffen können

Rechtsanwältin Julia Weber in Köln nutzte im Herbst 2025 ChatGPT, um schnell eine Einordnung zu einer mietrechtlichen Frage zu bekommen. Die Frage betraf die Zulässigkeit einer Mieterhöhung nach Modernisierung. ChatGPT lieferte eine flüssig formulierte Analyse und verwies auf § 559 Abs. 3a BGB. Das Problem: Diesen Absatz gibt es nicht.

Weber hatte Glück. Sie prüfte die Quelle, bevor sie den Text in ihren Schriftsatz übernahm. Aber sie verlor anderthalb Stunden mit der Gegenrecherche, die sie sich hätte sparen können. Ihre Lehre: Wenn ich ohnehin jeden Paragraph manuell nachprüfen muss, ist die Zeitersparnis durch ChatGPT eine Illusion.

Genau das ist der Kern der Debatte RAG vs ChatGPT im Recht. Ein Tool, dessen Output systematisch gegengeprüft werden muss, spart keine Zeit. Es verschiebt die Arbeit nur.

Warum RAG für deutsches Recht besonders wichtig ist

Das deutsche Rechtssystem stellt besondere Anforderungen an KI-gestützte Recherche, die generische Modelle systematisch nicht erfüllen.

Gesetzesstruktur und Verweisketten

Deutsche Bundesgesetze arbeiten mit komplexen internen Verweisketten. § 280 BGB verweist auf § 276 BGB, der wiederum auf § 278 BGB verweist. Wer einen Schadensersatzanspruch prüfen will, muss diese Kette vollständig nachvollziehen. ChatGPT kann das nicht zuverlässig, weil es die Gesetze nicht als zusammenhängendes System kennt, sondern als lose Textfragmente aus dem Trainingskorpus.

RAG-Systeme, die auf dem vollständigen Gesetzestext arbeiten, können diese Verweisketten verfolgen, weil sie auf die tatsächliche Normstruktur zugreifen.

Gutachtenstil als Qualitätsstandard

Der Gutachtenstil (Obersatz, Definition, Subsumtion, Ergebnis) ist nicht nur eine akademische Übung. Er ist der Standard für juristische Analysen in Deutschland. Generische KI kann den Gutachtenstil oberflächlich imitieren, ohne sicherzustellen, dass die eingesetzten Normen korrekt sind. RAG-basierte Systeme liefern Gutachten-Entwürfe, deren Normverweise auf echten Gesetzestexten basieren.

Aktualität des Rechts

Gesetze ändern sich. Das Mietrecht wurde 2025 mehrfach angepasst, das Arbeitsrecht ebenso. ChatGPT hat einen festen Wissensstichtag und kennt diese Änderungen nicht. RAG-Systeme können auf eine aktuell gehaltene Datenbank zugreifen und den jeweils geltenden Gesetzesstand berücksichtigen.

Was die BRAK zum KI-Einsatz sagt

Die Bundesrechtsanwaltskammer hat in ihrem Leitfaden zum KI-Einsatz in Anwaltskanzleien mehrere Empfehlungen formuliert, die direkt auf die Frage RAG vs ChatGPT im Recht einzahlen:

—
Prüfungspflicht: Jeder KI-generierte Output muss von einem Anwalt inhaltlich geprüft werden. Diese Pflicht besteht bei beiden Technologien, aber der Prüfungsaufwand bei RAG ist erheblich geringer, weil die Quellenangaben verifizierbar sind.
—
Halluzinationsrisiko: Die BRAK warnt ausdrücklich vor der Übernahme von KI-Ergebnissen ohne Gegenprüfung. Bei RAG ist diese Gegenprüfung ein Klick auf die Quellenangabe. Bei ChatGPT ist es eine vollständige Neurecherche.
—
EU-Hosting: Die BRAK empfiehlt, KI-Anbieter mit Serverstandorten in Europa zu bevorzugen. Generische Tools wie ChatGPT laufen auf US-Servern. RAG-basierte Legal-AI-Plattformen wie Lulius hosten ausschließlich in der EU.

Wie RA Nils Hansen den Unterschied erlebte

Nils Hansen, Fachanwalt für Arbeitsrecht in Berlin, testete beide Ansätze parallel über vier Wochen. Er stellte identische Recherche-Fragen sowohl an ChatGPT als auch an ein RAG-basiertes Legal-AI-Tool.

Sein Ergebnis: Bei ChatGPT musste er durchschnittlich 40 Minuten pro Anfrage für die Gegenrecherche aufwenden. Bei der RAG-basierten Lösung waren es 5 bis 10 Minuten, weil er die zitierten Paragraphen direkt verifizieren konnte. Über den Monat gerechnet sparte er mit RAG etwa 12 Stunden reine Prüfungszeit.

Noch schwerer wog ein qualitativer Unterschied: In drei von zehn ChatGPT-Antworten fand Hansen fehlerhafte Paragraphen-Verweise. Bei der RAG-Lösung war kein einziger Verweis falsch. Das änderte seine Risikoeinschätzung grundlegend.

„Ein Tool, dem ich bei jeder Antwort misstrauen muss, macht meine Arbeit nicht schneller, es macht sie unsicherer.“ — RA Nils Hansen

Worauf Kanzleien bei der Technologiewahl achten sollten

Die Entscheidung RAG vs ChatGPT im Recht hängt von mehreren Faktoren ab. Hier sind die wichtigsten Kriterien:

1. Quellenverifizierbarkeit

Können Sie die zitierten Normen direkt in der Anwendung prüfen? Bei RAG-Systemen ist das Standard. Bei generischer KI nicht.

2. Abdeckung des deutschen Rechts

Wie viele Bundesgesetze sind indexiert? Ein Tool, das nur fünf Rechtsgebiete abdeckt, hilft bei der nächsten Anfrage aus dem Sozialrecht nicht weiter. Achten Sie auf breite Abdeckung, 150+ Bundesgesetze sind ein guter Richtwert.

3. DSGVO-Konformität und EU-Hosting

Mandantendaten gehören nicht auf US-Server. Prüfen Sie, ob der Anbieter EU-Hosting, einen AVV und keine Nutzung der Daten für KI-Training garantiert.

4. Gutachtenstil-Fähigkeit

Für die tägliche Kanzleiarbeit ist es entscheidend, ob das Tool Entwürfe im Gutachtenstil liefern kann. Generische Chatbots können das nicht zuverlässig.

5. Integration in den Kanzlei-Workflow

Unterstützt das Tool DOCX- und PDF-Export? Gibt es Team-Verwaltung für Kanzleien mit mehreren Anwälten? Können Rechercheverläufe gespeichert werden? Die Lulius Funktionsübersicht zeigt, welche Features für den Kanzleialltag relevant sind.

Fazit: RAG vs ChatGPT im Recht ist keine Geschmacksfrage

Die Debatte RAG vs ChatGPT im Recht lässt sich auf einen Satz reduzieren: ChatGPT rät, RAG weiß.

Die zentralen Unterschiede:

—
Halluzinationsrisiko: ChatGPT erfindet Paragraphen. RAG zitiert nur existierende Normen.
—
Nachprüfbarkeit: Bei RAG ist jede Quelle verifizierbar. Bei ChatGPT ist Gegenrecherche Pflicht.
—
Deutsches Recht: RAG arbeitet mit indexierten Bundesgesetzen. ChatGPT kennt deutsches Recht nur fragmentarisch.
—
Berufsrecht: Die BRAK empfiehlt EU-Hosting und Sorgfalt bei der Toolauswahl. RAG-basierte Legal AI erfüllt diese Anforderungen; generische Chatbots nicht.
—
Zeitersparnis: Nur wenn der Output nicht komplett nachrecherchiert werden muss, spart KI tatsächlich Zeit.

Für Anwälte, die KI als Werkzeug nutzen wollen, ohne ihr Haftungsrisiko zu erhöhen, ist RAG-Technologie die einzig vertretbare Wahl.

Möchten Sie den Unterschied selbst erleben?

Testen Sie eine RAG-basierte Rechtsrecherche mit exakten Paragraphen-Verweisen aus 150+ Bundesgesetzen. 30 Tage Geld-zurück-Garantie, keine Kreditkarte zum Start.

Solo-Plan kostenlos testen Kanzlei-Plan ansehen

Hinweis: Lulius bietet rechtliche Ersteinschätzungen und KI-gestützte Analysen, keine Rechtsberatung im Sinne des RDG. KI-generierte Ergebnisse müssen stets inhaltlich geprüft werden.