Daten mit KI befragen: Was funktioniert und wo klassisches RAG scheitert

von Marcel Geschwill |
24. April 2026 |
Digitale Transformation | Enterprise Content Management

Das Wichtigste in Kürze

  • In diesem Artikel erfahren Sie, was RAG ist, wo es seine Grenzen hat und wie Advanced RAG sowie eine durchdachte Systemintegration echte Unternehmenslösungen ermöglichen.
  • RAG steht für Retrieval-Augmented Generation. Es handelt sich um eine Architektur, die zwei Komponenten kombiniert: eine Suchkomponente (Retrieval) und ein Sprachmodell (Generation). Das Sprachmodell, etwa GPT-4 oder ein vergleichbares LLM, generiert keine Antworten allein aus dem Gedächtnis, sondern erhält relevante Textpassagen aus Ihrer eigenen Datenbasis als Kontext.
  • Das Ergebnis: Das KI-Modell antwortet auf Basis Ihrer Unternehmensdaten, nicht auf Basis allgemeinen Trainingswissens.
  • Sobald Datenvolumen, Komplexität und Präzisionsanforderungen jedoch steigen, braucht es Advanced RAG, durchdachtes Chunking (Zerlegen großer Textmengen oder Dokumente in kleinere, in sich geschlossene Einheiten, sogenannte „Chunks“), hybride Suchstrategien und eine saubere Systemintegration. Wir liefern Ihnen basierend auf unseren Erfahrungen praxiserprobte Methoden, mit denen Sie KI erfolgreich einsetzen, um schnell per Chat die richtigen Antworten auf Ihre Fragen zu Unternehmensinformationen zu erhalten.

Stellen Sie sich vor, ein neuer Mitarbeiter betritt Ihr Unternehmen. Er erhält Zugriff auf sämtliche Dokumente, Berichte und Datenbanken und liefert Ihnen in Echtzeit auf jede Frage eine präzise Antwort. Kein stundenlanger Suchaufwand, keine inkonsistenten Aussagen aus unterschiedlichen Abteilungen. Genau das verspricht KI-gestütztes Datenmanagement auf Basis von RAG.

Doch die Realität in vielen Unternehmen sieht anders aus: Klassisches RAG liefert bei kleinen Datensätzen beeindruckende Ergebnisse und scheitert zuverlässig, sobald die Datenmenge wächst, Systeme heterogen werden oder Präzision wirklich zählt.

Nehmen wir dieses Beispiel: Ein Mitarbeiter fragt „Was ist unsere aktuelle Return Policy?“

Das RAG-System durchsucht das interne Wiki, findet die relevante Policy-Seite und übergibt sie als Kontext an das Sprachmodell. Das Modell formuliert daraus eine klare, natürlichsprachliche Antwort, inklusive konkreter Fristen und Ausnahmen.

Wie funktioniert klassisches RAG?

Der klassische RAG-Prozess läuft in drei Schritten ab.

1. Indexierung: Alle Unternehmensdokumente werden in kleine Textabschnitte (Chunks) zerlegt und als Vektoren in einer Vektordatenbank gespeichert (z. B. Pinecone, Weaviate, pgvector).

2. Retrieval: Bei einer Nutzeranfrage wird die Frage ebenfalls in einen Vektor umgewandelt. Das System sucht per Cosine-Similarity die ähnlichsten Chunks aus der Datenbank. (Die Cosine Similarity misst, wie ähnlich zwei Vektoren sind.)

3. Generation: Die gefundenen Chunks werden als Kontext an das Sprachmodell übergeben, das daraus eine kohärente Antwort formuliert.

Dieser Ansatz funktioniert gut, zumindest unter bestimmten Bedingungen. Sobald diese Bedingungen nicht mehr erfüllt sind, zeigen sich die strukturellen Schwächen.

Was klassisches RAG gut macht

Klassisches RAG ist keineswegs wertlos, im Gegenteil. Für folgende Szenarien ist es eine ausgezeichnete Lösung:

  • Kleiner, klar strukturierter Dokumentenbestand (z. B. 50–500 Dokumente)
  • Homogene Dokumente (gleiche Sprache, gleicher Aufbau, gleiche Qualität)
  • FAQ-basierte Anwendungsfälle mit eindeutiger Frage-Antwort-Struktur
  • Anwendungen, bei denen der Nutzer tolerant gegenüber gelegentlichen Ungenauigkeiten ist
  • Erste Proof-of-Concept-Implementierungen zur Validierung des Business Cases

Viele Unternehmen starten mit klassischem RAG und erzielen schnell beeindruckende Ergebnisse. Das Problem entsteht erst, wenn das System in den produktiven Betrieb überführt wird und mit der echten Komplexität der Unternehmensdaten konfrontiert wird.

Wo klassisches RAG an seine Grenzen stößt

Das Chunking-Problem: Wenn zu viel Content zu wenig Kontext ergibt

Die Stärke von RAG, Dokumente in Chunks zu zerlegen, wird bei großem Datenvolumen zur Schwäche. Wenn tausende Dokumente mit zehntausenden Chunks vorliegen, entstehen drei kritische Probleme:

  • Kontextverlust: Ein Chunk, der aus dem Zusammenhang gerissen wird, ergibt ohne den vorherigen und nachfolgenden Absatz keinen Sinn. Das Modell antwortet korrekt auf den Chunk, aber falsch auf die eigentliche Frage.
  • Rauschen: Bei großen Datenmengen werden häufig viele halbwegs ähnliche Chunks zurückgegeben, das Sprachmodell wird mit irrelevantem Material überhäuft.
  • Redundanz: Gleiche Informationen existieren in leicht abgewandelter Form in verschiedenen Dokumenten. Das Modell weiß nicht, welche Version aktuell ist.

Das Ergebnis in der Praxis: Ein Unternehmen mit 15.000 internen Dokumenten implementiert klassisches RAG. Bei Fragen zu aktuellen Preislisten liefert das System fälschlicherweise Antworten aus Preisdokumenten des Vorjahres, weil der Ähnlichkeitswert des alten und des neuen Dokuments nahezu identisch ist.

Vektorsuche

Die Vektorsuche basiert auf semantischer Ähnlichkeit. Sie findet Texte, die inhaltlich ähnlich klingen. Das klingt intuitiv richtig, hat aber einen fundamentalen Haken: Semantische Ähnlichkeit ist nicht dasselbe wie inhaltliche Relevanz.

Konkrete Probleme in der Praxis:

  • Keyword-Missmatch: Eine Frage nach „Umsatzsteuerregelung“ findet keinen Chunk mit „Mehrwertsteuergesetz“, obwohl beide dasselbe meinen
  • Themenüberschneidungen: Chunks zu verwandten Themen (z. B. DSGVO und NIS2) werden fälschlicherweise als relevant eingestuft
  • Negationen werden ignoriert: „Was sind KEINE Ausnahmetatbestände?“ liefert dieselben Chunks wie eine Frage ohne Negation
  • Zahlenbasierte Fragen: Vektoren sind nicht in der Lage exakte Zahlenwerte zu vergleichen, Fragen nach spezifischen Werten („Grenzwert > 500 Mitarbeiter“) werden oft fehlerhaft beantwortet

Halluzinationen und Faktenprobleme bei lückenhaftem Wissen

Wenn kein passender Chunk gefunden wird, verhält sich das Sprachmodell je nach Konfiguration unterschiedlich: Es gibt entweder eine Fehlantwort aus, weicht aus oder halluziniert eine plausibel klingende Antwort auf Basis seines Trainingswissens. In Unternehmenskontexten ist letzteres besonders gefährlich, da die Antwort für den Nutzer nicht von einer korrekten Antwort zu unterscheiden ist.

Advanced RAG

Advanced RAG ist kein einzelnes Verfahren, sondern eine Sammlung von Techniken, die die Schwächen des klassischen Ansatzes gezielt adressieren. Wir empfehlen dabei eine Kombination der folgenden Methoden, je nach Anforderung und Datenprofil:

Hybrid Search

Statt ausschließlich auf Vektorsuche zu setzen, kombiniert Hybrid Search die semantische Suche mit klassischer Keyword-Suche (BM25 oder TF-IDF). Das Ergebnis: bessere Trefferquoten bei exakten Begriffen, Zahlen und Fachterminologie. Die Ergebnisse beider Methoden werden durch ein Scoring-Modell (z. B. Reciprocal Rank Fusion) zusammengeführt.

Re-Ranking

Nach dem initialen Retrieval werden die gefundenen Chunks durch ein spezialisiertes Re-Ranking-Modell (z. B. Cross-Encoder) erneut bewertet. Dieses Modell berücksichtigt die vollständige Anfrage zusammen mit jedem einzelnen Chunk und liefert eine deutlich präzisere Relevanzbewertung als das initiale Retrieval.

Kontextuelles Chunking und Parent-Child-Retrieval

Anstatt Dokumente starr in gleich große Abschnitte zu teilen, wird beim kontextuellen Chunking der semantische Zusammenhang berücksichtigt. Zusätzlich ermöglicht das Parent-Child-Retrieval, dass zunächst kleine, präzise Chunks gefunden werden, das Modell jedoch den umgebenden größeren Kontext (Parent) erhält. Damit entsteht kein Kontextverlust mehr.

Knowledge Graphs

Für komplexe Unternehmensstrukturen, in denen Informationen stark vernetzt sind (z. B. Produkthierarchien, Vertragsbeziehungen, Organisationsstrukturen), ergänzen Knowledge Graphs die Vektordatenbank. Sie speichern nicht nur Inhalte, sondern auch deren Beziehungen und ermöglichen mehrstufige Anfragen, die über klassisches RAG hinausgehen.

Systemintegration: An welche Daten Sie denken sollten

Ein RAG-System ist nur so gut wie die Daten, auf die es zugreift. In der Praxis sind Unternehmensdaten über viele verschiedene Systeme verteilt:

  • SharePoint und Microsoft 365: Dokumente, Teams-Nachrichten, OneNote-Notizbücher, der größte Datentopf in vielen Unternehmen
  • Confluence und Jira: Technische Dokumentation, Ticket-Historien und Wissensdatenbanken
  • SAP und ERP-Systeme: Prozessdokumentation, Produkt- und Artikelstammdaten
  • CRM-Systeme (Salesforce, HubSpot): Kundenhistorien, Angebote und Vertragsunterlagen
  • Eigene Datenbanken und Data Warehouses: Strukturierte Daten per Text-to-SQL abrufbar
  • Intranet und Web-Quellen: Interne Portale, externe regulatorische Quellen

Entscheidend ist dabei nicht nur die technische Anbindung, sondern auch die Datenhygiene: Bereinigen Sie veraltete, doppelte oder widersprüchliche Informationen vor der Indexierung, sonst verschlechtern mehr Daten die Antwortqualität, anstatt sie zu verbessern.

Fazit

RAG ist die Schlüsseltechnologie, um KI wirklich mit Ihren Unternehmensdaten zu verbinden. Klassisches RAG ist ein hervorragender Ausgangspunkt, aber kein Endziel. Sobald Datenvolumen, Komplexität und Präzisionsanforderungen steigen, braucht es Advanced RAG, durchdachtes Chunking, hybride Suchstrategien und eine saubere Systemintegration. Der Unterschied zwischen einer beeindruckenden Demo und einem produktionsreifen System liegt in den Details und in der Erfahrung, diese Details richtig zu gestalten.

FAQ: RAG und KI-Datenabfrage im Unternehmen

  • Was ist RAG und wie unterscheidet es sich von ChatGPT? RAG (Retrieval-Augmented Generation) verbindet ein Sprachmodell mit einer externen Wissensquelle wie zum Beispiel Ihren Unternehmensdaten. ChatGPT ohne RAG antwortet ausschließlich auf Basis seines allgemeinen Trainingswissens und hat keinen Zugriff auf firmenspezifische Dokumente. Mit RAG beantwortet das KI-Modell Fragen auf Basis Ihrer aktuellen internen Daten.
  • Warum scheitert klassisches RAG bei großen Datenmengen? Klassisches RAG zerlegt Dokumente in gleichmäßige Chunks und sucht per Vektorähnlichkeit. Bei tausenden von Dokumenten entstehen Probleme: Kontextverlust durch zu kleines Chunking, semantische Überschneidungen zwischen ähnlichen Themen und fehlende Aktualitätserkennung. Das System findet zwar ähnliche Texte, aber nicht zwingend die relevantesten oder aktuellsten.
  • Was ist der Unterschied zwischen klassischem RAG und Advanced RAG? Advanced RAG kombiniert mehrere Verfahren: Hybrid Search (Vektor + Keyword), Re-Ranking-Modelle für eine präzisere Relevanzbewertung, Parent-Child-Chunking zum Erhalt des Kontexts und optional Knowledge Graphs für relationale Daten. Das Ergebnis sind deutlich präzisere Antworten, weniger Halluzinationen und eine bessere Skalierbarkeit.
  • An welche Systeme kann RAG angebunden werden? Moderne RAG-Architekturen können an nahezu alle Enterprise-Systeme angebunden werden: SharePoint, Confluence, SAP, Salesforce, eigene Datenbanken und Intranets. Entscheidend ist die Datenhygiene – veraltete oder widersprüchliche Daten verschlechtern die Antwortqualität, selbst bei technisch perfekter Implementierung.
  • Wie lange dauert die Implementierung einer RAG-Lösung? Ein erster Proof of Concept ist in 4–6 Wochen realisierbar. Eine produktionsreife Lösung mit vollständiger Systemintegration, Evaluierung und Monitoring benötigt typischerweise 3–6 Monate. Die Dauer hängt stark von der Komplexität der Datenbasis und der Anzahl der anzubindenden Systeme ab.
  • Was kostet eine RAG-Implementierung? Die Kosten hängen von Scope und Komplexität ab: Einfache PoC-Implementierungen starten ab ca. 20.000 EUR. Produktionsreife Enterprise-Lösungen mit mehreren Systemanbindungen und Advanced RAG liegen typischerweise zwischen 80.000 und 250.000 EUR. fme AG erstellt auf Basis eines Use-Case-Assessments ein konkretes Angebot.
Haben wir Ihr Interesse geweckt? Dann schreiben Sie uns doch einfach.
JETZT KONTAKT AUFNEHMEN
×

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert