RAG

RAG vs. Fine-Tuning – was eignet sich für Unternehmenswissen wirklich?

Adrian Schmid5. Mai 202620 Min. Lesezeit

Viele KI-Projekte starten mit derselben Frage: „Können wir unser Unternehmenswissen in ein KI-Modell trainieren?" Die Idee klingt naheliegend – Sprachmodelle beantworten allgemeine Fragen, also sollte man ihnen doch nur Handbücher, Produktdaten, Richtlinien und Supportfälle beibringen.

In der Praxis ist genau diese Annahme oft der falsche Startpunkt.

Nicht jedes Unternehmenswissen gehört ins Modelltraining. Und nicht jedes Problem wird durch Fine-Tuning gelöst. Für die meisten Wissens- und Dokumentenprozesse löst RAG – Retrieval-Augmented Generation – ein anderes, passenderes Problem.

Wollen Sie der KI aktuelles Wissen geben oder ihr Verhalten verändern? An dieser Frage scheidet sich der Architekturweg.

Inhaltsverzeichnis

01Wissen oder Verhalten – die Frage hinter der Frage
02Was RAG bedeutet – einfach erklärt
03Was Fine-Tuning bedeutet – einfach erklärt
04Der wichtigste Unterschied: RAG sucht, Fine-Tuning lernt Muster
05Warum Unternehmenswissen anders ist als Trainingswissen
06Wie Sie merken, dass Sie in dieser Entscheidung stecken
07Wann RAG für Unternehmenswissen die bessere Wahl ist
08Wann Fine-Tuning sinnvoll ist
09Entscheidungsmatrix: RAG, Fine-Tuning oder beides?
10Typische Unternehmensfälle im Vergleich
11Warum Quellenangaben so wichtig sind
12Kosten, Wartung, Skalierung
13Datenschutz, Berechtigungen, Mandantenfähigkeit
14Halluzinationen: welcher Ansatz reduziert welches Risiko?
15Der hybride Ansatz: RAG plus Fine-Tuning
16Ein realistischer Pilot für Unternehmenswissen
17Welche Kennzahlen zeigen, ob der Ansatz funktioniert
18Typische Fehler bei der Architekturentscheidung
19Fazit

Wissen oder Verhalten – die Frage hinter der Frage

Die Entscheidung zwischen RAG und Fine-Tuning wird oft technisch diskutiert: Welcher Ansatz ist günstiger, welcher schneller, welcher moderner? Für die Praxis ist eine andere Frage wichtiger.

Soll die KI besser auf internes Wissen zugreifen – oder soll sie sich in einer bestimmten Aufgabe anders verhalten?

Wenn eine KI beantworten soll, welche Reisekostenrichtlinie aktuell gilt, welche Produktvariante mit welcher Komponente kompatibel ist oder welcher Prozessschritt nach einer Reklamation folgt, braucht sie aktuellen Zugriff auf Wissen.

Wenn eine KI immer im gleichen Stil antworten, E-Mails in einem festen Format schreiben, Supporttickets nach festen Kategorien klassifizieren oder Rohdaten in eine wiederkehrende Zielstruktur umformen soll, braucht sie konsistentes Verhalten.

RAG ist stark bei Wissen. Fine-Tuning ist stark bei Verhalten. Wer diese Grundunterscheidung ignoriert, startet das Projekt zu kompliziert, zu teuer oder mit falschen Erwartungen.

Was RAG bedeutet – einfach erklärt

RAG steht für Retrieval-Augmented Generation. Das Sprachmodell antwortet nicht nur aus seinem allgemeinen Modellwissen, sondern sucht vor der Antwort relevante Informationen in externen Quellen.

Vereinfacht läuft das so ab:

Eine Person stellt eine Frage.
Das System analysiert die Frage.
Eine Suche findet passende Dokumente, Absätze oder Datensätze.
Die relevanten Inhalte werden dem Sprachmodell als Kontext mitgegeben.
Das Modell formuliert daraus eine Antwort – mit Verweis auf die Quellen.

Das Modell muss das Unternehmenswissen also nicht „auswendig lernen". Es bekommt die relevanten Ausschnitte zur Laufzeit. Genau das ist der Vorteil bei Unternehmenswissen: Dokumente, Prozesse, Preise, Richtlinien ändern sich. RAG kann neue oder geänderte Inhalte berücksichtigen, sobald sie im Index liegen. Wie die Architektur dahinter im Detail aussieht, von der Quellenanbindung bis zur Quellenanzeige pro Aussage, geht der Pillar zur KI-Wissensdatenbank mit Quellenangaben durch.

Was Fine-Tuning bedeutet – einfach erklärt

Fine-Tuning bedeutet, dass ein bestehendes Sprachmodell mit zusätzlichen Trainingsbeispielen angepasst wird. Das Modell wird nicht bei jeder Frage neu mit Dokumenten gefüttert, sondern vorher anhand von Beispielen trainiert.

Solche Beispiele zeigen typischerweise:

wie eine Supportantwort formuliert sein soll
wie ein internes Ticket klassifiziert wird
wie Eingabetexte in ein bestimmtes JSON-Format umgewandelt werden
wie ein bestimmter Schreibstil klingt
welche Antwortstruktur bevorzugt wird
wie aus Rohdaten ein standardisierter Bericht entsteht

Fine-Tuning ist dort interessant, wo ein Modell ein wiederkehrendes Muster zuverlässig reproduzieren soll. Es ist weniger geeignet, wenn sich das zugrunde liegende Faktenwissen häufig ändert oder Antworten auf überprüfbare Quellen verweisen müssen. Ein fine-getuntes Modell kann ein Muster sehr gut lernen – aber es weiß nicht, welche Richtlinie heute gültig ist, welche neue Produktvariante gestern veröffentlicht wurde oder welche Ausnahme im aktuellen Vertrag steht.

Der wichtigste Unterschied: RAG sucht, Fine-Tuning lernt Muster

Die Konsequenz ist konkret.

Bei RAG steht die Qualität der Wissensquellen im Mittelpunkt: Welche Dokumente werden angebunden, welche Version gilt, welche Abschnitte sind relevant, welche Zugriffsrechte gelten, wie wird gesucht und gerankt, wie werden Quellen angezeigt, wie wird verhindert, dass veraltete Inhalte verwendet werden.

Bei Fine-Tuning steht die Qualität der Trainingsbeispiele im Mittelpunkt: Welche Beispiele zeigen das gewünschte Verhalten, sind Eingabe und Zielausgabe sauber definiert, gibt es genug konsistente Beispiele, wann muss nachtrainiert werden, wie wird die Modellleistung gemessen.

Wer eine KI-Wissensdatenbank bauen will, sollte daher nicht zuerst fragen: „Wie trainieren wir unser Wissen ins Modell?" Die bessere Frage lautet: „Welche Wissensquellen muss die KI zuverlässig finden, verstehen und zitieren können?" Erst danach stellt sich die Frage, ob zusätzlich Fine-Tuning nötig ist.

Warum Unternehmenswissen anders ist als Trainingswissen

Unternehmenswissen ist nicht statisch. Eine Produktdokumentation ändert sich. Preise ändern sich. Richtlinien werden überarbeitet. Zuständigkeiten wechseln. Kundenverträge enthalten Ausnahmen. Alte PDFs bleiben irgendwo liegen. Neue Präsentationen widersprechen alten Dokumenten. Teams verwenden unterschiedliche Begriffe.

Genau deshalb ist Unternehmenswissen selten ein guter Kandidat, einmalig in ein Modell trainiert und dann als „gelernt" betrachtet zu werden.

Sobald sich Wissen ändert, entstehen Fragen: Muss das Modell neu trainiert werden? Welche Trainingsdaten sind jetzt veraltet? Wie beweisen wir, woher eine Aussage stammt? Wie berücksichtigen wir Berechtigungen? Wie entfernen wir vertrauliche oder falsche Informationen wieder? Wie erklären wir einer Fachabteilung, warum die KI diese Antwort gegeben hat?

Bei einer Wissensdatenbank ist Nachvollziehbarkeit fast immer wichtiger als „das Modell klingt kompetent". Mitarbeitende brauchen keine plausible Antwort, sondern eine, die sie prüfen können. Das Wissen muss kontrolliert, versioniert, auffindbar und zitierbar bleiben – und das spricht für RAG als erste Architektur.

Wie Sie merken, dass Sie in dieser Entscheidung stecken

Sie merken das daran, dass:

Jemand schlägt vor, alle Handbücher ins Modell zu trainieren

Die Idee klingt logisch: Wenn das Modell sich Wissen merken kann, sollte man ihm doch einfach die internen Dokumente beibringen. Genau dort fängt das Problem an, weil sich das Wissen wöchentlich ändert.

Eine Demo mit PDF-Upload hat den Vorstand überzeugt

In zehn Minuten lief der Chat. Niemand hat gefragt, aus welcher Version die Antwort stammt, ob die Person das Dokument überhaupt sehen darf oder was passiert, wenn die Quelle widersprüchlich ist.

Drei Abteilungen, drei Vorstellungen davon, was 'KI mit eigenen Daten' heißt

HR möchte Onboarding-Antworten, Vertrieb Produktwissen, Support Reklamationsregeln. Andere Quellen, andere Berechtigungen, andere Risiken – aber im Steering Committee heißt es 'eine KI-Plattform für alle'.

Tool-Auswahl läuft, niemand spricht über Quellen oder Rechte

Anbietergespräche drehen sich um Modellgrößen, Token-Preise und Latenz. Welche Dokumente angebunden werden, wie Berechtigungen abgebildet sind, ob Antworten Quellen zeigen – fehlt im Anforderungskatalog.

Erste Pilotantworten klingen plausibel, niemand prüft sie

Die Antworten lesen sich kompetent. Eine Fachperson hat noch nicht systematisch dagegengehalten – und genau das verschiebt die ehrliche Bewertung der Qualität immer weiter nach hinten.

Sobald mehrere dieser Punkte zusammenkommen, ist die Diskussion nicht mehr „RAG oder Fine-Tuning?", sondern „Welche Quellen, welche Nutzergruppe, welche Risiken?". Genau dort lohnt es sich, die Architekturentscheidung sauber zu treffen, bevor jemand Trainingsbudgets reserviert.

Wann RAG für Unternehmenswissen die bessere Wahl ist

RAG passt überall dort, wo die KI auf konkrete Unternehmensinhalte zugreifen soll: interne Richtlinien, Prozesshandbücher, Produktdokumentation, technische Handbücher, Preis- und Konditionslogiken, Onboarding-Unterlagen, Qualitätsmanagement, Vertriebs- und Supportwissen, Vertragsbeschreibungen, FAQ-Sammlungen, SharePoint-, Drive- oder Confluence-Inhalte.

Stark wird RAG dann, wenn eine oder mehrere dieser Bedingungen zutreffen.

Das Wissen ändert sich regelmäßig

Wenn Dokumente und Regeln häufig aktualisiert werden, ist Modelltraining unpraktisch. Bei RAG werden geänderte Inhalte im Wissensindex aktualisiert – ohne Trainingslauf.

Antworten müssen überprüfbar sein

Wenn Mitarbeitende oder Kunden wissen müssen, woher eine Antwort stammt, sind Quellenangaben kein Extra, sondern die Grundvoraussetzung. RAG kann Antworten mit Dokumenten, Abschnitten oder Fundstellen verknüpfen.

Berechtigungen sind relevant

Nicht jede Person darf alle Dokumente sehen. Ein gutes RAG-System berücksichtigt Zugriffsrechte vor oder während der Suche – nicht erst beim Formulieren der Antwort.

Wissen liegt bereits in Dokumenten vor

Wenn die Organisation viele PDFs, Wikis, Tabellen, Präsentationen oder Handbücher hat, ist Retrieval näher an der Realität als Modelltraining. Die Wissensbasis bleibt dort, wo sie ohnehin gepflegt wird.

Der Use Case ist fragebasiert

Bei Fragen wie „Was gilt bei …?", „Wo steht …?", „Welche Schritte sind nötig …?" oder „Welche Ausnahme gibt es …?" ist RAG der natürliche Ansatz.

Das System soll mit Unsicherheit umgehen

Ein gutes RAG-System sagt: „Ich habe keine ausreichende Quelle gefunden." In Unternehmensprozessen ist das oft wertvoller als eine selbstbewusste, aber unbelegte Antwort.

Wann Fine-Tuning sinnvoll ist

Fine-Tuning ist nicht falsch. Es löst nur ein anderes Problem – nämlich das wiederholte Erledigen einer klar definierten Aufgabe in einer bestimmten Form.

Einheitliche Antwortformate

Wenn Antworten immer in einer bestimmten Struktur kommen sollen – Kurzantwort, Begründung, Risiko, nächste Schritte, Datenfelder, JSON-Ausgabe, Klassifikation – und Prompting allein zu instabil ist, kann Fine-Tuning helfen.

Spezifischer Schreibstil

Markenspezifische Produkttexte, Supportantworten in definierter Sprache, technische Dokumentationsbausteine, standardisierte Vertriebs-E-Mails, rechtlich geprüfte Formulierungslogik. Fine-Tuning erhöht die Wahrscheinlichkeit, dass die Ausgabe den gewünschten Stil trifft.

Klassifikation und Routing

Supporttickets, Leads, Reklamationen, Bestellarten, Dokumententypen, Risikoarten, Produktkategorien. Wenn die Klassen stabil sind und gute gelabelte Beispiele vorliegen, ist Fine-Tuning ein guter Kandidat.

Transformation von Eingaben

Aus unstrukturierten Eingaben sollen strukturierte Daten entstehen: E-Mail → Ticketfelder, Anfrage → Angebotsschema, Text → ERP-nahe Datenstruktur. Fine-Tuning hilft, wenn die Zielstruktur stabil ist.

Aber auch dann gilt: Wenn die Aufgabe aktuelles Unternehmenswissen benötigt, reicht Fine-Tuning allein nicht. Dann braucht es zusätzlich Retrieval.

Entscheidungsmatrix: RAG, Fine-Tuning oder beides?

Entscheidungshilfe: RAG für Wissen zur Antwortzeit, Fine-Tuning für gelerntes Verhalten, Hybrid für aktuelles Wissen mit festem Format

Ein paar Kriterien machen die Entscheidung handhabbar.

Kriterium	Eher RAG	Eher Fine-Tuning	Häufig hybrid
Wissen ändert sich oft	Ja	Nein	Ja
Quellenangaben nötig	Ja	Nein	Ja
Berechtigungen wichtig	Ja	Selten ausreichend	Ja
Aufgabe braucht festen Stil	Möglich	Ja	Ja
Ausgabeformat muss sehr stabil sein	Möglich	Ja	Ja
Viele Dokumente vorhanden	Ja	Nicht automatisch	Ja
Viele gelabelte Beispiele vorhanden	Nicht zwingend	Ja	Ja
Ziel: interne Wissenssuche	Ja	Selten	Manchmal
Ziel: Klassifikation	Möglich	Ja	Ja
Ziel: Chat über eigene Dokumente	Ja	Selten allein	Ja
Ziel: feste Datenfelder erzeugen	Möglich	Ja	Ja
Nachvollziehbarkeit entscheidend	Ja	Schwächer	Ja

Die Faustregel:

Mit RAG starten, wenn die KI wissen soll, was im Unternehmen gilt. Fine-Tuning ergänzen, wenn die KI wiederholt auf eine sehr bestimmte Weise arbeiten soll.

Typische Unternehmensfälle im Vergleich

Interne Wissensdatenbank

„Welche Regel gilt für Homeoffice im Ausland?" – das System soll antworten und zeigen, aus welcher Richtlinie die Antwort stammt.

RAG. Die Antwort muss auf aktuellen Dokumenten basieren und überprüfbar sein. Fine-Tuning wäre riskant, weil die Regel irgendwann veraltet.

Produkt- und Supportwissen

„Welche Ersatzteile passen zu Gerät X aus Baujahr Y?"

RAG, eventuell kombiniert mit strukturierten Datenquellen. Produktdaten und Kompatibilitäten ändern sich, Quellen müssen nachvollziehbar sein.

Supportticket-Klassifikation

Eingehende Tickets sollen in „Reklamation", „Lieferstatus", „Rechnung", „technisches Problem" oder „Stammdatenänderung" sortiert werden.

Fine-Tuning kommt in Frage, wenn genug gelabelte Beispiele vorhanden sind. Die Aufgabe ist wiederkehrend und klassifikatorisch – kein Wissenszugriff.

KI-Chatbot mit eigenen Dokumenten

Kunden stellen Fragen zu Bedienungsanleitungen, Garantiebestimmungen oder Produktinformationen.

RAG. Antworten müssen aus freigegebenen Dokumenten kommen. Quellen, Aktualität, Berechtigungen sind nicht verhandelbar. Was zwischen einer schicken PDF-Upload-Demo und einem produktiven Dokumentenassistenten liegt, ist im Detail im Artikel zum KI-Chatbot mit eigenen Dokumenten beschrieben.

Standardisierte Angebotstexte

Aus kurzen Stichpunkten sollen vollständige Angebotstexte im Markenstil entstehen.

Fine-Tuning oder starke Prompt-/Template-Logik; bei Produktdetails zusätzlich RAG. Der Stil lässt sich trainieren, Produktfakten sollten aus aktuellen Quellen kommen.

Compliance- oder Rechtsfragen

Mitarbeitende fragen nach internen Regeln, Vertragsklauseln oder regulatorischen Vorgaben.

RAG mit klaren Grenzen, Quellen und menschlicher Prüfung für kritische Fälle. Nachvollziehbarkeit ist hier wichtiger als flüssige Formulierung. Das System zeigt Unsicherheit, statt unbelegt zu antworten.

Warum Quellenangaben so wichtig sind

Bei Unternehmenswissen sind Quellenangaben kein nettes Extra. Sie sind oft der Unterschied zwischen einer Spielerei und einem nutzbaren Arbeitssystem.

Ohne Quellenangaben bleibt unklar, ob die Antwort aus einem aktuellen Dokument stammt, ob die richtige Version verwendet wurde, ob die Aussage auf einer Richtlinie oder nur auf Modellwissen basiert, ob die Antwort für den konkreten Geschäftsbereich gilt, ob die Person die zugrunde liegende Information sehen darf.

Mit Quellenangaben kann ein Mensch prüfen, welches Dokument verwendet wurde, ob der zitierte Abschnitt zur Aussage passt, ob das Dokument aktuell ist und ob eine Rückfrage an eine Fachperson nötig ist.

Ich habe das schon gesehen – ein Pilot mit beeindruckenden Antworten, der ohne Quellen ausgeliefert wurde. Sechs Wochen später kam eine Reklamation rein, in der ein Kunde eine vermeintliche Zusage zitierte, die niemand mehr nachvollziehen konnte. Das System hatte plausibel formuliert, aber ohne Beleg. Genau diese Antwort lässt sich nicht mehr zurückholen.

Fine-Tuning kann ein Antwortverhalten verbessern, liefert aber nicht automatisch nachvollziehbare Quellen für jede Aussage. RAG kann das, wenn die Architektur sauber gebaut ist – also nicht „drei Dokumente am Ende verlinkt", sondern: Dokumentname, Abschnitt oder Seite, Datum oder Version, relevante Textstelle, Zugriffsberechtigung, optional ein Aktualitätssignal.

Kosten, Wartung, Skalierung

Beide Ansätze kosten Geld, nur an unterschiedlichen Stellen.

Kosten bei RAG

Aufwände entstehen für: Datenquellen anbinden, Dokumente extrahieren, Inhalte bereinigen, Berechtigungen abbilden, Such- oder Vektorindex aufbauen, Chunking und Metadaten definieren, Retrieval-Qualität verbessern, Quellenanzeige implementieren, Monitoring aufsetzen, Änderungen aus Quellsystemen synchronisieren.

RAG ist kein „Dokumente hochladen und fertig"-Projekt. Der Vorteil: Neue Dokumente lassen sich ohne Modelltraining ergänzen. Die Wissensbasis bleibt als kontrollierte Schicht außerhalb des Modells – mit allen Vorteilen, die saubere Stammdaten und Datenqualität auch in anderen Automatisierungsprojekten haben.

Kosten bei Fine-Tuning

Aufwände entstehen für: Trainingsbeispiele sammeln, Zielausgaben definieren, Daten prüfen und bereinigen, Trainings- und Validierungsdaten trennen, Modelltraining durchführen, Ergebnisse evaluieren, Fehler analysieren, Modellversionen verwalten, Verhalten bei neuen Anforderungen aktualisieren.

Fine-Tuning lohnt sich, wenn der Verhaltenseffekt wiederholt genutzt wird und genug hochwertige Beispiele existieren. Es lohnt sich nicht, wenn das eigentliche Problem lautet: „Die KI soll unsere Dokumente kennen."

Skalierung im Unternehmen

RAG skaliert über Wissensbereiche, wenn Datenquellen, Berechtigungen, Metadaten und Suchqualität sauber angelegt sind. Fine-Tuning skaliert über wiederkehrende Aufgaben, wenn das gewünschte Verhalten klar definiert ist und stabil bleibt.

In größeren Organisationen entstehen deshalb beide Ebenen: RAG als Wissensschicht, Prompts oder Fine-Tuning als Verhaltensschicht, Rechte- und Governance-Schicht dazwischen, Monitoring über beide Ansätze hinweg.

Aus der Praxis

KI-Wissensdatenbank mit RAG-Chat in einer Mitarbeiter-App

Für eine Mitarbeiter-App wurde ein mandantenfähiger KI-Assistent gebaut, der Antworten ausschließlich auf belegten Dokumenten formuliert – mit Quellverweis pro Aussage, getrennter Datenhaltung pro Organisation und auf europäischer Infrastruktur. Kein Modelltraining auf Unternehmensdaten, sondern eine saubere Retrieval-Ebene.

Zum Projektbericht

Datenschutz, Berechtigungen, Mandantenfähigkeit

Bei Unternehmenswissen reicht technische Funktionsfähigkeit nicht. Die KI darf nicht alles durchsuchen, was irgendwo abgelegt ist.

Wichtige Fragen sind: Welche Datenquellen dürfen angebunden werden? Wer darf welche Dokumente sehen? Werden Berechtigungen aus dem Quellsystem übernommen? Gibt es Mandanten, Gesellschaften, Länder, Kundengruppen? Müssen personenbezogene Daten ausgeschlossen oder maskiert werden? Werden Anfragen und Antworten protokolliert? Wo werden Daten verarbeitet? Welche Inhalte dürfen an externe Modelle gesendet werden? Wie werden alte oder gelöschte Dokumente aus dem Index entfernt?

RAG kann Berechtigungen sauber berücksichtigen, wenn sie von Anfang an in die Architektur eingebaut werden. Die Person stellt eine Frage zu internen Bonusregeln – das System darf nur Dokumente durchsuchen, auf die diese Person Zugriff hat. Es reicht nicht, nachträglich zu sagen: „Die Antwort soll vertraulich behandelt werden." Die Einschränkung muss vor dem Retrieval gelten.

Fine-Tuning ist hier schwieriger. Wenn vertrauliche Informationen in Trainingsdaten einfließen, stellt sich die Frage, wie Wissen wieder entfernt, versioniert oder auf einzelne Berechtigungsgruppen beschränkt wird. Für viele Unternehmen ist das ein starkes Argument, internes Wissen nicht unüberlegt ins Modelltraining zu geben.

Halluzinationen: welcher Ansatz reduziert welches Risiko?

Halluzinationen entstehen, wenn ein Modell eine Antwort erzeugt, die plausibel klingt, aber fachlich falsch, unbelegt oder erfunden ist. Weder RAG noch Fine-Tuning entfernen das Risiko vollständig. Sie reduzieren unterschiedliche Risiken.

RAG reduziert Wissenslücken. Das Modell bekommt relevante Informationen aus Quellen und muss weniger raten. Aber RAG kann trotzdem Fehler machen: Die Suche findet falsche Dokumente. Der Kontext ist widersprüchlich. Die Quelle ist veraltet. Das Modell interpretiert eine Quelle falsch. Die Antwort vermischt mehrere Quellen. Die Frage ist gar nicht durch vorhandene Dokumente beantwortbar.

Was RAG braucht, um nicht selbst zu halluzinieren: gute Dokumentenaufbereitung, Metadaten und Versionierung, Relevanzranking, Quellenanzeige, Antwortregeln bei fehlender Evidenz, Evaluation mit echten Fragen, Feedback aus der Nutzung.

Fine-Tuning reduziert Verhaltensfehler. Es hilft, wenn das Modell immer wieder im falschen Format antwortet, falsche Klassen wählt oder nicht dem gewünschten Stil folgt. Es löst aber nicht das Problem fehlender aktueller Fakten. Ein fine-getuntes Modell kann sehr überzeugend falsch antworten, wenn die nötige Information nicht im Prompt oder in einer angebundenen Quelle verfügbar ist.

Für Unternehmenswissen lautet die wichtigste Regel daher: erst die Informationsgrundlage verbessern, dann das Verhalten optimieren.

Der hybride Ansatz: RAG plus Fine-Tuning

In vielen produktiven Systemen ist die beste Lösung nicht entweder/oder. Ein hybrides System kann so aussehen:

RAG sucht die relevanten aktuellen Informationen.
Das Modell erhält die Quellen als Kontext.
Ein spezialisierter Prompt oder ein fine-getuntes Modell erzeugt die Antwort im gewünschten Format.
Eine Validierung prüft Quellen, Pflichtfelder, Tonalität, Risiko.
Kritische Fälle gehen an einen Menschen.

Drei typische Hybrid-Anwendungen:

Interner Support-Assistent. RAG findet die passende Richtlinie. Fine-Tuning sorgt dafür, dass die Antwort kurz, hilfreich und im internen Supportstil bleibt.

Produktberater. RAG liefert aktuelle Produktdaten, Kompatibilitäten und Einschränkungen. Fine-Tuning verbessert Gesprächsführung und Empfehlungslogik.

Wissensdatenbank für mehrere Abteilungen. RAG sorgt dafür, dass jede Antwort nur auf freigegebenen Quellen basiert. Fine-Tuning oder Templates sorgen für rollenabhängige Antwortformate.

Wichtig ist die Reihenfolge: Erst die Wissensbasis stabilisieren – Quellen, Berechtigungen, Aktualität, Antwortqualität. Dann lohnt sich die Frage, ob Fine-Tuning zusätzlich wirtschaftlich sinnvoll ist.

Ein realistischer Pilot für Unternehmenswissen

Viele Unternehmen wollen zu schnell zu groß starten: alle Dokumente anbinden, alle Abteilungen bedienen, mehrere Sprachen, Kundenzugriff, dazu Compliance, Support, Vertrieb und HR gleichzeitig. Das ist kein guter erster Schritt.

Besser ist ein klar begrenzter Pilot in sechs Schritten:

Schritt 1: Use Case eingrenzen

Eine Abteilung, ein Themengebiet, eine klare Nutzergruppe. Onboarding für den Vertrieb, IT-Support für interne Standardfragen, Prozesshandbuch für die Auftragsabwicklung – nicht 'das gesamte Unternehmenswissen' im ersten Schritt.

Schritt 2: Quellen wirklich auswählen

30 bis 200 geprüfte Dokumente schlagen 5.000 ungeprüfte. Pro Quelle einmal beantworten: Wer pflegt sie, ist sie aktuell, wer darf sie sehen, ist sie sensibel? Erst danach indexieren.

Schritt 3: Echte Fragen sammeln

Nicht Demo-Fragen, sondern Fragen aus Tickets, E-Mails, Onboarding-Sessions, Nachfragen an Fachpersonen. Auch unklare und unbeantwortbare. Dieser Katalog ist später die Evaluationsbasis.

Schritt 4: RAG-Prototyp mit Architekturprinzipien bauen

Quellenangabe pro Aussage, Berechtigungsfilter vor dem Retrieval, sauberes No-Answer-Verhalten, Logging, Feedbackfunktion. Ohne diese Punkte ist die Demo beeindruckend, aber für den Betrieb nicht aussagekräftig.

Schritt 5: Mit Fachpersonen evaluieren

Ist die Antwort korrekt? Sind die Quellen passend? Wird Unsicherheit richtig gezeigt? Würde jemand, der das Thema seit Jahren bearbeitet, diese Antwort am Montagmorgen vor einem Kunden zitieren?

Schritt 6: Erst danach über Fine-Tuning entscheiden

Wenn die Quellen stimmen, aber das Format wackelt, die Tonalität nicht passt oder Klassifikationen wiederholt falsch sind, wird Fine-Tuning konkret. Vorher ist es eine Lösung auf der Suche nach einem Problem.

Diese Reihenfolge spart Diskussionen darüber, ob Fine-Tuning „auch noch" hilft. Nach Schritt 5 ist sichtbar, ob das Hauptproblem wirklich Wissenszugriff war oder ob zusätzlich Verhaltensstabilität fehlt.

Welche Kennzahlen zeigen, ob der Ansatz funktioniert

Ohne Kennzahlen bleibt die Entscheidung subjektiv.

Für RAG eignen sich Qualitäts- und Nutzungskennzahlen: Anteil korrekt beantworteter Testfragen, Anteil Antworten mit passenden Quellen, Anteil unbeantwortbarer Fragen, die korrekt abgelehnt wurden, Suchtrefferqualität, Klicks auf Quellen, Zeitersparnis bei wiederkehrenden Fragen, Rückgang interner Rückfragen, Aktualität der verwendeten Dokumente, Abdeckungsgrad pro Wissensbereich.

Für Fine-Tuning eignen sich andere: Formatstabilität, Klassifikationsgenauigkeit, Konsistenz der Ausgabe, Tonalitätstreue, Fehlerrate pro Zielklasse, Nachbearbeitungszeit, Kosten pro Aufgabe, Verbesserung gegenüber Prompting allein.

Für hybride Systeme braucht es beide Perspektiven. Eine Antwort kann die richtige Quelle nutzen, aber im falschen Format ausgegeben werden. Oder sie kann perfekt formatiert sein und auf einer falschen Quelle beruhen. Deshalb sollte Evaluation nicht nur die Endantwort betrachten, sondern den Weg dorthin: Wurde die richtige Quelle gefunden, wurde sie richtig verstanden, wurde Unsicherheit angemessen behandelt, wurde die Ausgabe im gewünschten Format geliefert?

Typische Fehler bei der Architekturentscheidung

Fehler 1: 'Wir trainieren einfach unsere PDFs ins Modell'

PDFs sind selten gute Trainingsdaten. Sie enthalten Versionskonflikte, Tabellen, alte Inhalte und uneinheitliche Sprache. Für Wissenszugriff sind sie als RAG-Quelle besser aufgehoben als im Modelltraining.

Fehler 2: Fine-Tuning als Abkürzung für unsaubere Daten

Wenn Dokumente veraltet, widersprüchlich oder unklar sind, löst Fine-Tuning das Problem nicht. Es macht die Unklarheit eher schwerer sichtbar, weil die Antwort sehr selbstbewusst klingt.

Fehler 3: Berechtigungen erst später einbauen

Zugriffsrechte gehören in die erste Architekturentscheidung. Eine Wissensbasis nachträglich pro Rolle zu filtern ist riskant – Inhalte, die das System einmal kennt, lassen sich nicht zuverlässig 'vergessen'.

Fehler 4: Nur auf Demo-Fragen evaluieren

Demo-Fragen sind zu freundlich. Eine ehrliche Evaluation nutzt echte Fragen aus dem Arbeitsalltag, inklusive widersprüchlicher und nicht beantwortbarer. Dort zeigt sich, ob das System sauber 'Ich weiß es nicht' sagen kann.

Fehler 5: Quellenangabe mit Wahrheit verwechseln

Eine Quelle macht eine Antwort überprüfbar, nicht automatisch richtig. Das Modell kann Quellen falsch interpretieren oder mehrere mischen. Deshalb braucht es Feedback und stichprobenhafte Prüfung – nicht nur einen Link unter der Antwort.

Fehler 6: Kosten am Modellpreis messen

Die größten Kosten entstehen meist nicht beim Modell, sondern bei Datenaufbereitung, Berechtigungslogik, Integration, Qualitätssicherung und Betrieb. Wer das übersieht, kalkuliert nach Tokens und wundert sich später.

Kostenlose Erstanalyse

RAG, Fine-Tuning oder Hybrid – was passt zu Ihrem Use Case?

Kurze Einschätzung zu Quellen, Rechten und Aktualitätsanforderungen
RAG-Pilot, Fine-Tuning oder Hybrid – ehrlich abgewogen
Realistischer Einstieg statt Modelltraining auf Verdacht

Fazit

Für Unternehmenswissen ist die wichtigste Entscheidung nicht „Welches Modell nehmen wir?". Die wichtigste Entscheidung ist: Wie bekommt die KI verlässlichen, aktuellen und erlaubten Zugriff auf das richtige Wissen?

In den meisten Fällen ist RAG der bessere Startpunkt. RAG passt, wenn Wissen in Dokumenten, Wikis, Richtlinien, Produktdaten oder Prozessbeschreibungen liegt, sich regelmäßig ändert und Antworten mit Quellen nachvollziehbar sein müssen.

Fine-Tuning passt, wenn das Modell ein wiederkehrendes Verhalten, Format, Klassifikationsschema oder eine Tonalität zuverlässig reproduzieren soll.

Für viele Unternehmen lautet die beste Architektur deshalb nicht RAG oder Fine-Tuning, sondern beides – in dieser Reihenfolge: Wissen über RAG zugänglich machen, Quellen, Rechte und Aktualität sauber lösen, Antwortqualität mit echten Fragen messen. Erst danach prüfen, ob Fine-Tuning für Verhalten, Format oder Klassifikation wirtschaftlich sinnvoll ist.

Wer Unternehmenswissen wirklich nutzbar machen will, beginnt nicht damit, alles ins Modell zu trainieren. Er beginnt damit, die richtigen Quellen auffindbar, überprüfbar und sicher verwendbar zu machen.

Was ist der Unterschied zwischen RAG und Fine-Tuning?

RAG verbindet ein Sprachmodell zur Antwortzeit mit externen Wissensquellen: Das System sucht relevante Dokumente und gibt sie als Kontext an das Modell. Fine-Tuning passt ein bestehendes Modell durch Training auf Beispieldaten an. Vereinfacht: RAG verbessert den Zugriff auf Wissen, Fine-Tuning verändert das Verhalten – Format, Tonalität, Klassifikation.

Kann man Unternehmensdokumente einfach in ein Modell fine-tunen?

Technisch geht vieles, praktisch ist es selten sinnvoll. Unternehmensdokumente ändern sich, enthalten Versionen, Ausnahmen und vertrauliche Informationen. Sobald sie ins Training fließen, wird Aktualisierung, Löschung und Nachvollziehbarkeit schwer. Für Dokumentenwissen ist RAG meist deutlich passender, weil die Quellen außerhalb des Modells kontrollierbar bleiben.

Kann RAG Halluzinationen verhindern?

Reduzieren ja, vollständig verhindern nein. RAG hilft, weil das Modell relevante Quellen mitbekommt und weniger raten muss. Aber Suche kann falsche Dokumente liefern, Quellen können widersprüchlich sein, Modelle können Quellen falsch interpretieren. Was hilft: Quellenanzeige auf Aussage-Ebene, ein klares No-Answer-Verhalten, Evaluation mit echten Fragen und stichprobenhafte fachliche Prüfung.

Sollte man mit RAG oder Fine-Tuning starten?

Bei Wissens- und Dokumentenfragen fast immer mit RAG. Erst nach einem ehrlichen Pilot zeigt sich, ob das Hauptproblem der Wissenszugriff war oder das Antwortverhalten. Fine-Tuning lohnt sich, wenn die Quellen stimmen, das Format aber wackelt, Klassifikationen daneben liegen oder die Tonalität trotz Prompting nicht trifft.

Kann man RAG und Fine-Tuning kombinieren?

Ja, viele produktive Systeme tun genau das: RAG liefert aktuelle und überprüfbare Informationen, Fine-Tuning oder strukturierte Prompts sorgen für ein stabiles Antwortverhalten. Wichtig ist die Reihenfolge – erst Wissensgrundlage, dann Verhalten. Hybrid zu früh zu bauen erhöht die Komplexität ohne Erkenntnisgewinn.

Ist RAG günstiger als Fine-Tuning?

Das hängt am Use Case. RAG spart oft Trainingsaufwand, verursacht aber Kosten für Datenanbindung, Indexierung, Retrieval-Qualität, Berechtigungen und Betrieb. Fine-Tuning verursacht Aufwand für Trainingsdaten, Trainingsläufe, Evaluation und Modellpflege. Wirtschaftlich gewinnt der Ansatz, der das eigentliche Problem löst – Wissenszugriff oder Verhalten.