RAG-System für KMUs: So baust du deine KI-Wissensdatenbank
Wissen ist in den meisten KMUs nicht das Problem. Es ist die Frage, wo es steckt. In PDFs, die niemand mehr findet. In SharePoint-Ordnern, die seit 2019 niemand aufgeräumt hat. In den Köpfen von Mitarbeitern, die nächsten Monat in Rente gehen. Das lässt sich ändern – und zwar ohne IT-Abteilung, ohne Entwickler und ohne monatelange Projekte.
Ein RAG System bauen bedeutet: du gibst deiner Wissensdatenbank eine Suchfunktion, die tatsächlich Antworten liefert. Keine Trefferlisten, keine zehn Dokumente zum Durchklicken. Eine Antwort mit Quellenangabe. Das klingt nach Zukunftsmusik – ist aber mit den richtigen Werkzeugen heute umsetzbar.
Was RAG im KMU wirklich löst (und was nicht)
RAG steht für Retrieval Augmented Generation. Klingt technisch, ist im Kern aber einfach: Statt dem KI-Modell alles im Voraus beizubringen, holst du bei jeder Anfrage die relevanten Dokumente raus und gibst sie dem Modell als Kontext mit. Das Modell antwortet dann auf Basis dieser Stellen – nicht auf Basis von irgendwelchem Internet-Wissen.
Was das im Alltag bedeutet: Karl, Inhaber eines Spenglereibetriebs mit 18 Mitarbeitern, hatte ein klassisches Problem. Neue Mitarbeiter fragten ständig nach Wartungsanleitungen, Aufmaßformularen und Lieferantenkonditionen. Die Antworten lagen irgendwo – aber "irgendwo" ist keine hilfreiche Adresse. Nach dem Aufbau seines RAG-Systems beantwortet ein internes Chat-Tool diese Fragen in Sekunden. Mit Quellenangabe. Das Team fragt, die Antwort kommt, Arbeit erledigt.
Was RAG nicht löst: unstrukturiertes Chaos. Wenn deine Dokumente inhaltlich veraltet, widersprüchlich oder nur als unlesbare Scan-PDFs vorhanden sind, hilft kein System der Welt. Gute Dokumentaufbereitung kommt vor gutem Retrieval – das ist der wichtigste Satz in diesem Artikel.
Die Architektur: 2 Workflows in n8n, eine Datenbank
Das Zielbild ist überschaubar. Du brauchst keine IT-Infrastruktur. Zwei Workflows in n8n und eine Datenbank in Supabase reichen für den Start.
Workflow 1 – Ingestion: Dokumente einlesen, aufbereiten, in Vektoren umwandeln, in Supabase speichern. Dieser Workflow läuft entweder einmalig oder bei jeder Änderung im Quellsystem (Ordner, SharePoint, DMS).
Workflow 2 – Q&A: Nutzer stellt eine Frage, Workflow sucht die passenden Textstellen in Supabase, gibt sie dem Sprachmodell als Kontext mit, Antwort kommt zurück – inklusive Quellen.
Das ist es. Wirklich. Stefan, Holzbau-Unternehmer mit einem Team von 22 Leuten, hat genau diese Struktur umgesetzt – anfangs skeptisch, weil er dachte, so etwas brauche einen Dienstleister. Er hat den Ingestion-Workflow an sein Google-Drive-Verzeichnis mit Werkplänen und Lieferantenlisten angebunden. Heute läuft das System seit vier Monaten ohne nennenswerte Wartung.
Datenquellen anbinden: Wo dein Wissen heute wohnt
Für den Start reicht ein Ordner. Ernsthaft. Ein lokaler Ordner oder ein Google Drive mit den wichtigsten 20–50 Dokumenten ist ein legitimer Ausgangspunkt.
Für Skalierung kommen SharePoint, ein DMS oder strukturierte Ordnerhierarchien dazu. n8n hat native Konnektoren für all das. Der wichtige Punkt: Du brauchst einen Weg, Änderungen zu erkennen. Entweder per Zeitplan ("prüfe täglich auf neue Dateien") oder event-getrieben ("sobald eine Datei geändert wird, aktualisiere den Index"). Für KMU-Einstieg reicht der Zeitplan-Ansatz völlig.
Dokumentaufbereitung: Der unterschätzte Hebel
Hier verlieren die meisten ihr Spiel. Nicht beim Modell, nicht beim Retrieval – bei der Dokumentaufbereitung.
Extraktion: Was rein muss, muss auch rauslesbar sein
PDFs mit Textebene sind einfach. Gescannte PDFs brauchen OCR. DOCX-Dateien sind unkritisch. E-Mails haben oft viel Rauschen (Signaturen, Weiterleitungsketten), das du rausfiltern solltest. Tabellen in PDFs sind tückisch – sie werden oft als Zeichenketten-Chaos extrahiert.
Cleaning: Kopfzeilen, Fußzeilen, Duplikate
Automatische Kopfzeilen-Erkennung ist in n8n nicht nativ, aber mit ein bisschen Regex lösbar. Wichtiger: Duplikate. Wenn du dasselbe Dokument in zwei Versionen hast, muss das System wissen, welche gilt. Stabile Dokument-IDs helfen dabei – und die baust du einmal in deinen Metadaten-Standard ein.
Metadaten: Pflichtfelder von Anfang an
Mein empfohlener Minimal-Standard: mandant, abteilung, docType, gueltigVon, gueltigBis, quelleUrl. Klingt bürokratisch, spart dir später Kopfschmerzen. Diese Felder erlauben dir, Suchanfragen zu filtern – zum Beispiel: "Zeig mir nur Dokumente der Abteilung Montage, die noch gültig sind." Das ist kein Nice-to-have, das ist der Unterschied zwischen einem Spielzeug und einem Produktivsystem.
Chunking: Wie du Texte sinnvoll zerschneidest
Ein Dokument wird nicht als Ganzes gespeichert. Es wird in Abschnitte – sogenannte Chunks – aufgeteilt, die einzeln indexiert werden.
Startwerte und wann du abweichst
Für den Einstieg: Chunk-Größe 512–800 Token, Overlap 10–20%. Das heißt, benachbarte Chunks überlappen sich leicht, damit Sinnzusammenhänge nicht an Chunk-Grenzen abreißen. Zu kleine Chunks (unter 100 Token) erzeugen Retrieval-Rauschen – du bekommst viele kurze Fragmente ohne ausreichend Kontext. Zu große Chunks (über 1500 Token) verwässern die Relevanz, weil das Embedding ein Mischmasch aus mehreren Themen repräsentiert.
Struktur-bewusst chunken
Die beste Chunk-Grenze ist eine Überschrift oder ein Abschnittswechsel. Wenn deine Dokumente Headings haben – nutze sie. SOPs und Checklisten haben meist klare Schritte, die gute natürliche Grenzen ergeben. Tabellen am besten als eigenständigen Chunk behandeln, mit Beschreibungszeile davor.
Embeddings: Kosten, Qualität, DSGVO
Ein Embedding ist eine Zahlenrepräsentation eines Textstücks – so sucht das System nicht nach Keywords, sondern nach Bedeutung.
Welches Modell?
OpenAI bietet zwei relevante Modelle: text-embedding-3-small (Standard: 1536 Dimensionen) und text-embedding-3-large (Standard: 3072 Dimensionen). Der dimensions-Parameter erlaubt dir, die Vektorgröße zu reduzieren – das spart Speicher und beschleunigt Abfragen, kostet aber etwas Qualität. Quelle: OpenAI
Für KMU-Einstieg: text-embedding-3-small mit 1536 Dimensionen ist ein guter Kompromiss. Wenn du merkst, dass Retrieval-Qualität leidet, testest du text-embedding-3-large. Nicht andersherum.
Zur DSGVO: OpenAI stellt einen Data Processing Addendum (DPA) zur Verfügung – den brauchst du als Teil deiner Auftragsverarbeitungs-Dokumentation. Reicht nicht allein, ist aber ein wichtiges Artefakt.
Supabase als Vektordatenbank: Praktisch eingerichtet
Supabase mit pgvector ist die pragmatischste Wahl für KMU ohne eigenes Datenbankteam. Managed Service, gute n8n-Integration, solide Dokumentation.
Das Tabellenmodell
Deine Chunk-Tabelle braucht mindestens: id, content (der Textinhalt), embedding (der Vektor), metadata (JSONB für deine Pflichtfelder), document_id (Fremdschlüssel zum Quelldokument), created_at.
Index-Wahl: HNSW ist die richtige Wahl
pgvector bietet zwei Index-Typen. HNSW liefert bessere Query-Performance als IVFFlat – kürzere Antwortzeiten, besseres Recall/Speed-Verhältnis. Der Nachteil: mehr Speicher und längere Build-Zeiten beim Index-Aufbau. Quelle: pgvector GitHub Für KMU-Datenmengen (unter 100.000 Chunks) ist das kein Problem. HNSW, fertig.
Die Retrieval-Pipeline: Von der Frage zur Antwort
Pre-Filter + Top-K
Zuerst filterst du nach Metadaten – zum Beispiel: nur Dokumente der Abteilung Montage, nur gültige Versionen. Dann machst du eine Vektorsuche auf diesem gefilterten Subset und holst die Top-K ähnlichsten Chunks (typisch: 5–20).
Re-Ranking: Der größte Qualitätsbooster
Nach dem Retrieval kommt, wenn du's richtig machen willst, Re-Ranking. Cohere Rerank v4.0 ist multilingual, verarbeitet bis zu 32.000 Token Kontext und eignet sich gut für deutsche Dokumente und gemischte Formate. Quelle: Cohere Prinzip: erst schnell Top-K per Vektor holen, dann die relevantesten Treffer per Reranker neu sortieren, bevor das Sprachmodell antwortet. In der Praxis ist das oft der Schritt, der ein mittelmäßiges System zu einem guten macht.
Antwort-Template mit Quellen
Das Sprachmodell soll nur auf Basis der gelieferten Chunks antworten – nicht auf Basis von Allgemeinwissen. Das erreichst du über einen klaren System-Prompt:
"Beantworte die Frage ausschließlich auf Basis der folgenden Dokumente. Zitiere immer die Quelle. Wenn keine relevante Information vorhanden ist, antworte: 'Dazu habe ich keine gesicherte Information in der Wissensdatenbank.'"
Das zweite Satzfragment ist nicht optional. Es verhindert Halluzinationen. Und es macht das System vertrauenswürdig – was für KMU-Mitarbeiter wichtiger ist als jede Funktion.
Rechte & Governance: RLS in Supabase
Row Level Security (RLS) in Supabase ist der praktikabelste Weg, Zugriffsrechte auf Chunk-Ebene durchzusetzen. Policies wirken wie implizite WHERE-Klauseln – ein Nutzer sieht nur, was seine Policy erlaubt. Wichtig: Trotz RLS solltest du explizite Filter in deinen Abfragen setzen. Supabase empfiehlt das Wrapping von auth.uid() als (select auth.uid()) für deutlich bessere Query-Pläne. Quelle: Supabase RLS Docs
Audit-Logging – wer hat wann was gefragt – ist für KMU zunächst optional, aber für Compliance-sensible Branchen früh einplanen.
Evaluation: Wie du weißt, ob das System funktioniert
Ein Golden Set aus 10–30 Fragen mit bekannten richtigen Antworten ist dein Maßstab. Du fragst das System, vergleichst die Antworten, und klassifizierst Fehler in drei Kategorien: Retrieval-Fehler (falsches Dokument geholt), Ranking-Fehler (richtiges Dokument geholt, aber nicht priorisiert), Halluzination (Antwort ohne Basis im Dokument).
Das klingt aufwändig. In der Praxis reichen für KMU-Systeme zwei Stunden und eine Tabelle. Aber ohne diesen Schritt weißt du schlicht nicht, ob dein System gut ist oder nur gut aussieht.
Typische Fehler und schnelle Fixes
Zu kleine Chunks mit zu viel Overlap bauen: Retrieval-Rauschen, schlechte Antworten. Fix: Chunks auf 400–800 Token vergrößern.
Metadaten nicht von Anfang an strukturiert: Nachträglich alles neu indexieren ist mühsam. Fix: Metadaten-Standard vor dem ersten Ingestion-Lauf festlegen.
System-Prompt zu offen formuliert: Das Modell halluziniert. Fix: Explizit auf Quellenbasierung einschränken.
RLS vergessen oder falsch konfiguriert: Datenschutzproblem. Fix: Policies vor Go-Live testen, explizite Filter in allen Queries.
DSGVO und EU AI Act: Was KMU wissen müssen
Für den Betrieb eines RAG-Systems mit Drittanbieter-Modellen (OpenAI, Cohere) brauchst du Auftragsverarbeitungsverträge (AVV/DPA). OpenAI bietet einen deutschen DPA, Cohere ebenfalls.
Zum EU AI Act: In Kraft seit August 2024, vollständig anwendbar ab August 2026. Für KMU relevant: AI-Literacy-Pflichten gelten seit Februar 2025, GPAI-Pflichten ab August 2025. Quelle: EU-Kommission Ein internes Wissenssystem für Mitarbeiter wird typischerweise nicht als Hochrisiko-System eingestuft – aber Dokumentation und Transparenz gegenüber den Nutzern des Systems sind trotzdem sinnvoll. Früh anfangen, nicht warten.
Häufig gestellte Fragen
Was ist ein RAG System und wozu brauche ich es als KMU?
RAG (Retrieval Augmented Generation) ist eine Methode, bei der ein KI-Modell Antworten auf Basis deiner eigenen Dokumente gibt – nicht auf Basis von allgemeinem Internet-Wissen. Für KMU bedeutet das: Mitarbeiter können natürlichsprachlich nach Anleitungen, Prozessen und Lieferanteninformationen fragen und bekommen sofort eine Antwort mit Quellenangabe. Kein Suchen mehr in Ordnern.
Brauche ich Programmierkenntnisse, um ein RAG System zu bauen?
Nein, mit n8n als Workflow-Tool und Supabase als Datenbank kannst du ein funktionsfähiges RAG System ohne Code aufbauen. n8n bietet fertige Workflow-Templates, die du parametrisieren – also an deine Quellen und Anforderungen anpassen – kannst. Du steuerst das System, die Werkzeuge setzen um.
Wie lange dauert es, ein erstes RAG System einzurichten?
Für einen funktionierenden Prototyp mit einem Dokumentenordner als Quelle und einer einfachen Q&A-Oberfläche reichen bei vorbereiteten Dokumenten ein bis zwei Tage. Ein produktionsreifes System mit Rechteverwaltung, Metadaten-Standard und Evaluation-Prozess ist eher eine Sache von zwei bis vier Wochen.
Wie halte ich mein RAG System DSGVO-konform?
Du brauchst Auftragsverarbeitungsverträge mit allen KI-Anbietern, die du einsetzt (OpenAI, Cohere etc.). Außerdem solltest du Zugriffskontrolle auf Chunk-Ebene umsetzen (RLS in Supabase) und keine personenbezogenen Daten unnötig in die Wissensdatenbank aufnehmen. Der EU AI Act verlangt ab Februar 2025 außerdem nachweisbare AI-Literacy bei Mitarbeitern, die KI-Systeme nutzen.
Was ist der Unterschied zwischen einem RAG System und einer normalen Datenbanksuche?
Eine klassische Suche (Stichwortsuche, SharePoint-Suche) findet Dokumente, die das gesuchte Wort enthalten. Ein RAG System versteht Bedeutung: Es findet Dokumente, die inhaltlich zur Frage passen – auch wenn die exakten Wörter nicht vorkommen. Außerdem gibt es eine direkte Antwort statt einer Trefferliste, und es zeigt die Quelldokumente, aus denen die Antwort stammt.
Welche Dokumenttypen kann ein RAG System verarbeiten?
PDFs mit Textebene, DOCX-Dateien und strukturierte Texte funktionieren problemlos. Gescannte PDFs brauchen OCR als vorgelagerten Schritt. Tabellen in PDFs sind tückisch und sollten manuell geprüft werden. E-Mails funktionieren, produzieren aber oft viel Rauschen – Signaturen und Weiterleitungsketten solltest du vor der Indexierung herausfiltern.
Was kostet der Betrieb eines RAG Systems für ein KMU?
Für ein typisches KMU-Setup mit OpenAI-Embeddings, Supabase Free/Pro und n8n Cloud liegen die laufenden Kosten in einem sehr überschaubaren Rahmen – oft im niedrigen zweistelligen Euro-Bereich pro Monat, abhängig von Dokumentenmenge und Abfragevolumen. Der Aufwand für Einrichtung und initiale Dokumentaufbereitung ist der deutlich größere Kostenfaktor.
Und jetzt?
Wissen auffindbar machen ist kein Luxusprojekt – es ist eine der einfachsten Maßnahmen mit direktem Effekt auf Arbeitszeit und Fehlerquote. Ob du das in einem strukturierten Sprint umsetzen willst oder erstmal ein paar Fragen hast: beides ist möglich.
Im 12-Wochen-Sprint der Synclaro Academy baust du dein RAG System Schritt für Schritt auf – von der Dokumentaufbereitung bis zum produktionsreifen System mit Rechteverwaltung und Evaluation. Oder du buchst dir zuerst ein kostenloses 15-Minuten-Erstgespräch, wenn du noch nicht sicher bist, ob und wie das für deinen Betrieb passt.
Zur Synclaro Academy | Erstgespräch buchen
Über den Autor
Marco Heer
Ex-Cisco Network Engineer (CCNP) mit 10+ Jahren IT-Erfahrung. Marco ist Gründer von Synclaro und hilft Selbstständigen und KMU, KI strategisch einzusetzen und Prozesse zu automatisieren.
Ähnliche Artikel
KI-Coaching vs. KI-Beratung: Was brauchen Sie wirklich?
KI-Coaching oder KI-Beratung? Erfahren Sie die Unterschiede, Kosten und wann welcher Ansatz der richtige für Ihr Unternehmen ist. Jetzt vergleichen!
KI-Weiterbildung 2026: Vom ChatGPT-Nutzer zum Automatisierungs-Profi
KI-Weiterbildung für Selbstständige und Unternehmer: Von ChatGPT-Basics zur produktiven Automatisierung. Mit Skill-Matrix, Tool-Stack und Praxis-Blueprint.
Was kostet KI-Beratung? Preise, Modelle und ROI im Überblick
Was kostet KI-Beratung? Erfahren Sie aktuelle Preismodelle, typische Stundensätze und wie Sie den ROI Ihrer KI-Investition maximieren. Jetzt informieren!
Bereit, KI in Ihrem Unternehmen einzusetzen?
In einem kostenlosen Erstgespräch analysieren wir Ihre Anforderungen und zeigen konkrete Möglichkeiten für KI-Automatisierung in Ihrem Unternehmen.