Chunking bezeichnet den Prozess des Aufteilens von umfangreichen Texten oder Datensätzen in kleinere, handhabbare Einheiten, die sogenannten „Chunks“. In der Welt der Large Language Models (LLM) ist Chunking ein kritischer Vorbereitungsschritt, um Informationen effizient in Vektordatenbanken zu speichern und für Systeme wie Retrieval-Augmented Generation (RAG) nutzbar zu machen.
Warum ist die Fragmentierung von Daten notwendig?
Large Language Models haben ein begrenztes „Kontextfenster“ – also eine maximale Anzahl von Tokens, die sie gleichzeitig verarbeiten können. Würde man ein ganzes Buch als einen einzigen Block an eine KI senden, würde dies den Rahmen sprengen oder zu unpräzisen Ergebnissen führen. Durch Chunking werden Informationen so portioniert, dass die KI bei einer Anfrage gezielt nur die relevantesten Textabschnitte abrufen kann. Dies spart Rechenressourcen und erhöht die Genauigkeit der Antworten drastisch.
Methoden des Chunking
Die Qualität eines KI-Systems hängt maßgeblich davon ab, wie intelligent die Chunks erstellt werden:
- Fixed-size Chunking: Der Text wird nach einer festen Zeichen- oder Tokenanzahl getrennt. Dies ist schnell, kann aber Sätze mitten im Wort zerreißen.
- Recursive Character Chunking: Hier wird versucht, an natürlichen Trennstellen wie Absätzen oder Satzenden zu splitten, um den Sinnzusammenhang zu wahren.
- Semantic Chunking: Die fortgeschrittenste Methode, bei der die KI selbst analysiert, wo ein Thema endet und ein neues beginnt, um die semantische Einheit zu erhalten.
Die Bedeutung von „Overlap“ (Überlappung)
Ein entscheidender Faktor beim Chunking ist die Überlappung. Dabei werden am Ende eines Chunks einige Sätze oder Wörter des folgenden Chunks wiederholt. Dies stellt sicher, dass der Kontext nicht verloren geht, wenn eine wichtige Information genau an der Schnittstelle zweier Chunks liegt. Für die Vektor-Einbettung (Vector Embeddings) ist dieser Kontext essenziell, um die mathematische Ähnlichkeit zwischen Suchanfrage und Datenpunkt korrekt zu berechnen.
Experten-Tipp von DMA
Wählen Sie Ihre Chunk-Größe basierend auf Ihrem Use-Case. Für kurze, prägnante Fakten sind kleine Chunks ideal. Wenn die KI jedoch komplexe Zusammenhänge erklären soll, benötigen Sie größere Einheiten mit einer großzügigen Überlappung (ca. 10–20 %). Testen Sie verschiedene Strategien in Ihrer RAG-Pipeline: Ein schlechtes Chunking ist oft der Hauptgrund für „Halluzinationen“, da die KI nur Bruchstücke einer Information erhält und den Rest logisch (aber falsch) ergänzt.
Häufige Fragen zu Chunking
Was passiert, wenn Chunks zu klein sind?
Die KI verliert den globalen Kontext. Die Antwort wirkt dann oft abgehackt oder lässt wichtige Hintergrundinformationen vermissen, die in benachbarten Chunks stehen.
Was passiert, wenn Chunks zu groß sind?
Es entsteht „Rauschen“. Die Vektor-Suche wird ungenauer, da zu viele verschiedene Themen in einem einzigen Chunk vermischt werden, was die Relevanz der Suchergebnisse verschlechtert.
Ist Chunking für SEO relevant?
Ja, indirekt. Eine saubere Strukturierung Ihrer Inhalte (H-Tags, klare Absätze) erleichtert es KI-Crawlern, Ihren Content korrekt zu „chunken“ und als präzise Quelle in GEO-Antworten (Generative Engine Optimization) zu zitieren.