Wissen / Grundlagen

Embeddings & Vektordatenbank

Deine Firma hat tausende Dokumente — Verträge, Protokolle, Richtlinien, E-Mails. Wie findet eine KI darin die richtige Stelle, auch wenn niemand exakt das gesuchte Wort verwendet hat? Die Antwort heisst Embeddings und Vektordatenbank.

Aktualisiert: FrontierX · Stand der Technik
Kurz gesagt

Ein Embedding ist eine Liste von Zahlen (ein Vektor, oft mit 768, 1024 oder 1536 Werten), die die Bedeutung eines Textes abbildet — Texte mit ähnlicher Bedeutung bekommen ähnliche Zahlen und liegen dadurch nah beieinander. Eine Vektordatenbank speichert diese Zahlenlisten und findet zu einer Frage die bedeutungsähnlichsten Dokumente, statt nur nach exakten Zeichenketten zu suchen. Praktisch heisst das: Die KI versteht, dass «Ferien» und «Urlaub» dasselbe meinen, und findet die richtige Stelle in deinen Firmendokumenten — auch wenn das gesuchte Wort gar nicht vorkommt.

Bedeutung
Worauf ein Embedding sucht — semantische Nähe statt exakter Zeichenketten.
768–1536
Typische Länge eines Embedding-Vektors: so viele Zahlen bilden die Bedeutung eines Textes ab (oft 768, 1024 oder 1536 Dimensionen).
OpenAI Embeddings-Doku (1536)
Synonyme
Was die Suche von selbst versteht — «Ferien» und «Urlaub» liegen nah beieinander, ohne dass du sie pflegen musst.

Embeddings und Vektordatenbank — die Kurzfassung

Stell dir vor, du suchst in tausend Firmendokumenten nach der Antwort auf eine Frage. Die klassische Suche findet nur, was wortwörtlich übereinstimmt: Tippst du «Urlaub», findet sie das Dokument nicht, in dem «Ferienregelung» steht — obwohl es genau die richtige Stelle wäre.

Embeddings lösen das. Ein Embedding verwandelt einen Text in eine Liste von Zahlen — einen sogenannten Vektor — der die Bedeutung des Textes festhält. Texte mit ähnlicher Bedeutung bekommen ähnliche Zahlen. «Urlaub», «Ferien» und «freie Tage» landen dadurch nah beieinander.

Eine Vektordatenbank ist der Ort, an dem diese Zahlenlisten gespeichert werden. Stellst du eine Frage, sucht sie nicht nach exakten Buchstaben, sondern nach Bedeutungsnähe — und liefert die inhaltlich passendsten Dokumente, auch wenn dein Suchwort dort gar nicht steht.

Faustregel: Die klassische Suche findet, was gleich geschrieben ist. Eine Vektordatenbank findet, was dasselbe meint.

Was ein Embedding wirklich ist — mit einer Analogie

Die einfachste Art, sich ein Embedding vorzustellen: als Koordinate auf einer riesigen Landkarte der Bedeutung.

Auf einer normalen Landkarte hat jeder Ort zwei Zahlen — Länge und Breite. Orte, die im echten Leben nah beieinander liegen, haben ähnliche Koordinaten. Genau so funktioniert ein Embedding, nur mit sehr viel mehr Zahlen: Statt zwei Werten hat ein Embedding typischerweise 768, 1024 oder 1536 Zahlen — OpenAIs Modell text-embedding-3-small liefert etwa 1536 Dimensionen (OpenAI-Doku), viele offene Modelle nutzen 768 oder 1024. Jeder Text bekommt seine eigene «Adresse» in diesem Bedeutungsraum.

Das Entscheidende: Ähnliche Bedeutungen liegen nah beieinander. Ein Text über «Rechnung bezahlen» landet in der Nähe von «offener Betrag begleichen» — und weit weg von «Mitarbeitergespräch vorbereiten». Du musst diese Zahlen nie selbst sehen. Wichtig ist nur das Prinzip: Nähe in den Zahlen heisst Nähe in der Bedeutung.

So entsteht eine Suche, die Synonyme und Umschreibungen von selbst versteht. Du pflegst keine Schlagwortlisten mehr, in denen steht, dass «Ferien» und «Urlaub» dasselbe sind — das Embedding weiss es bereits.

Wie die Vektordatenbank deine Dokumente findet

Eine Vektordatenbank macht aus dem Prinzip eine praktische Suche. Der Ablauf ist überraschend geradlinig:

  1. Dokumente vorbereiten. Jedes Firmendokument wird in handliche Abschnitte zerlegt, und für jeden Abschnitt wird ein Embedding berechnet — seine «Bedeutungs-Koordinate».
  2. Speichern. Alle diese Embeddings wandern in die Vektordatenbank, zusammen mit dem Verweis auf die Originalstelle.
  3. Frage stellen. Tippt jemand eine Frage, wird auch sie in ein Embedding verwandelt — dieselbe Bedeutungs-Landkarte, dieselbe Logik.
  4. Nächste Treffer finden. Die Datenbank sucht die Dokument-Abschnitte, deren Embeddings der Frage am nächsten liegen. Das ist die Ähnlichkeitssuche über semantische Nähe statt exakter Zeichenketten.
  5. Ausgeben. Die passendsten Stellen kommen zurück — als Suchergebnis oder als Grundlage für eine Antwort.

Der Unterschied zur klassischen Suche im Alltag:

 Klassische VolltextsucheVektordatenbank (Embeddings)
Sucht nachExakten Wörtern / ZeichenkettenBedeutung / semantischer Nähe
«Urlaub» findet «Ferien»?NeinJa, von selbst
Synonyme pflegen?Ja, manuellNein, versteht sie automatisch
Umschreibungen / ganze FragenSchlechtGut — versteht den Sinn
StärkeExakte Begriffe, Aktenzeichen«Wo steht etwas zum Thema X?»

In der Praxis kombiniert man oft beides: die Vektorsuche für die Bedeutung, die klassische Suche für exakte Treffer wie Rechnungsnummern oder Aktenzeichen.

Warum das für dein KMU zählt

Embeddings und Vektordatenbank klingen technisch — der Nutzen ist sehr handfest. Sie sind das Fundament, auf dem zwei Dinge stehen, die im Büroalltag direkt etwas bringen:

  • Interne Wissenssuche. Statt dass eine Mitarbeiterin zwanzig Minuten in Ordnern und alten E-Mails sucht, fragt sie in normaler Sprache — «Wie ist unsere Regelung für Spesen über 100 Franken?» — und bekommt die richtige Stelle aus deinen eigenen Dokumenten, auch wenn das Wort «Spesen» dort gar nicht so steht. Mehr dazu unter Interne Wissenssuche.
  • Antworten aus deinem eigenen Wissen (RAG). Damit eine KI nicht aus dem Allgemeinwissen antwortet, sondern aus deinen Verträgen, Protokollen und Richtlinien, muss sie zuerst die richtigen Stellen finden. Genau diese Suchfähigkeit liefern Embeddings. Wie daraus eine belegte Antwort wird, erklärt Was ist RAG?.

Der grosse Vorteil gegenüber dem Versuch, einem Modell dein Wissen «einzutrainieren»: Eine Vektordatenbank ist immer aktuell. Kommt ein neues Dokument dazu, berechnet man ein Embedding und legt es ab — fertig. Du musst kein Modell neu trainieren. Wann sich trotzdem ein angepasstes Modell lohnt, steht im Vergleich RAG vs. Fine-Tuning.

Was du dir merken musst (und was nicht)

Du musst nie verstehen, wie aus einem Satz konkret 1536 Zahlen werden — das übernimmt die Technik, und das übernimmt FrontierX. Drei Sätze reichen für den Alltag:

  • Ein Embedding ist eine Zahlen-Adresse für die Bedeutung eines Textes.
  • Eine Vektordatenbank findet darüber, was dasselbe meint — nicht nur, was gleich geschrieben ist.
  • Zusammen machen sie die Suche in deinen eigenen Dokumenten so gut, dass sie sich anfühlt wie ein Kollege, der den ganzen Aktenschrank im Kopf hat.

Wenn du wissen willst, wo dieser Hebel in deinem Betrieb am meisten bringt, schauen wir das in einer kurzen Auslegeordnung gemeinsam an — wir nehmen einen echten Vorgang aus deinem Alltag und zeigen, wie die Suche darauf reagiert. Ohne Verkaufsdruck, einfach um zu sehen, ob es passt.

Häufige Fragen

Fragen, die zu diesem Thema gestellt werden.

Was ist ein Embedding in einfachen Worten?

Ein Embedding ist eine Liste von Zahlen, die die Bedeutung eines Textes festhält — eine Art Koordinate auf einer riesigen «Bedeutungs-Landkarte». Texte, die inhaltlich ähnlich sind, bekommen ähnliche Zahlen und landen dadurch nah beieinander. So eine Liste hat typischerweise 768, 1024 oder 1536 Zahlen. Du musst die Zahlen nie selbst sehen oder verstehen — wichtig ist nur: Nähe in diesen Zahlen bedeutet Nähe in der Bedeutung.

Was ist der Unterschied zwischen einer Vektordatenbank und einer normalen Suche?

Eine normale Suche (wie Strg+F oder die Volltextsuche im Dateisystem) findet nur, was buchstäblich übereinstimmt — suchst du «Urlaub», findet sie kein Dokument, in dem «Ferien» steht. Eine Vektordatenbank sucht nach Bedeutung statt nach exakten Zeichenketten: Sie vergleicht die Embeddings und liefert die inhaltlich nächsten Treffer. Sie versteht also Synonyme und Umschreibungen von selbst, ohne dass du Schlagwortlisten pflegen musst.

Brauche ich Embeddings, wenn ich eh schon ChatGPT nutze?

Für allgemeine Fragen nicht. Aber sobald die KI Antworten aus deinen eigenen Firmendokumenten geben soll, braucht sie einen Weg, die richtige Stelle zu finden — und genau das leisten Embeddings und eine Vektordatenbank. Sie sind das technische Fundament unter der internen Wissenssuche und unter RAG, dem Verfahren, mit dem eine KI auf deinem eigenen Wissen antwortet statt nur aus ihrem Trainingsstand.

Bleiben unsere Dokumente dabei vertraulich?

Ja, wenn es richtig aufgesetzt ist. Deine Dokumente und ihre Embeddings landen in einer Datenbank, die du kontrollierst — auf Wunsch mit Schweizer Hosting und ohne dass die Inhalte fürs Modelltraining verwendet werden. FrontierX baut interne Wissenssuche grundsätzlich revDSG-konform: Zugriffe sind nachvollziehbar, und die Daten verlassen deinen kontrollierten Rahmen nicht ungefragt.

Weiterlesen

Verwandte Themen.

Bereit, das in deinem Betrieb einzusetzen?

FrontierX startet mit einer Auslegeordnung deiner Abläufe und automatisiert den Vorgang mit dem grössten Hebel zuerst — DSG-konform, in Tagen statt Quartalen.

Gespräch anfragen