Wie gelangen LLMs an ihre Informationen?

Wie gelangen LLMs (z. B. Google AI Mode, ChatGPT) an ihre Informationen?

1. Zwei grundlegende Arbeitsweisen von LLMs

a) Pretrained-only (rein trainierte Modelle, z. B. GPT-4 ohne Browsing)

  • Diese LLMs wurden einmalig mit umfangreichen Textsammlungen (Web, Wikipedia, Bücher etc.) trainiert.

  • Sie speichern keine konkreten Zitate oder Dokumente, sondern lernen statistische Zusammenhänge (z. B. wie bestimmte Begriffe verwendet werden).

  • Inhalte, die nach dem Trainingszeitpunkt erscheinen, können nicht verwendet werden.

  • Sie geben Antworten aus dem gelernten Wissen, aber ohne Zugriff auf aktuelle Daten oder echte Quellen.

b) Retrieval-Augmented Generation (RAG) (z. B. Google AI Mode, Bing Chat, ChatGPT mit Browsing)

  • Diese Systeme verbinden ein LLM mit einem externen Such- oder Wissenssystem, das in Echtzeit oder regelmäßig aktualisiert wird.

  • Bei einer Nutzerfrage wird die Anfrage in einen Vektor übersetzt, relevante Passagen aus einem semantischen Index abgerufen und daraus eine Antwort generiert.

  • Zitate und Links sind hier möglich – wenn auch oft paraphrasiert.


Haben LLMs einen eigenen Index wie Google Search?

Ja – aber mit entscheidenden Unterschieden:

  • LLMs mit RAG nutzen einen eigenen semantischen Index, der nicht auf klassischen Rankingfaktoren basiert.

  • Statt ganzer Seiten werden einzelne Textpassagen (sogenannte Chunks oder Fraggles) verarbeitet.

  • Jede Passage wird in einen semantischen Vektor umgewandelt (Embedding).

  • Alle Vektoren werden in einem Vektorraum gespeichert, in dem semantisch ähnliche Inhalte nah beieinanderliegen.

Dieser Vektorraum ersetzt klassische Rankinglogik – Nähe zur Nutzerfrage ist hier der zentrale Relevanzfaktor.


Wie kommt eine neue Passage in den semantischen Index eines LLMs?

Der typische Ablauf bei KI-Systemen mit Retrieval:

  1. Crawling
    – Deine Website wird wie gewohnt gecrawlt, also z. B. durch den Googlebot besucht. Voraussetzung: Indexierbarkeit (robots.txt, Meta-Tag etc.)

  2. Chunking & Embedding
    – Der Text wird in kleinere Passagen („Chunks“) zerlegt (z. B. 100–300 Wörter)
    – Jeder Chunk wird in einen semantischen Vektor umgerechnet (mittels Embedding-Modell).

  3. Indexierung im semantischen Vektorraum
    – Diese Passage-Vektoren werden in einem semantischen Suchindex gespeichert, getrennt von Googles klassischen SERP-Indizes.
    – Sie können dort mit Anfragen (ebenfalls als Vektor) verglichen werden.

  4. Abruf bei Nutzerfrage
    – Stellt ein Nutzer eine passende Frage, wird die Anfrage ebenfalls als Vektor verarbeitet.
    – Per Vektorvergleich („Nearest-Neighbors“) werden die semantisch ähnlichsten Passagen abgerufen.
    – Diese bilden die Basis für eine generierte Antwort. Sie wird dann entweder zitiert, paraphrasiert oder als Grundlage der Antwort verwendet.


🕒 Wie schnell kann eine neue Passage zitiert werden?

System Erwartbare Zeit bis zur Nutzung
Google AI Mode (SGE) 1–3 Tage (wenn Seite gut crawlbar ist)
Bing Chat / Copilot Teils in Echtzeit, teils 1–2 Tage
ChatGPT mit Browsing (Pro) Sofort, wenn aktiv nach deiner Seite gesucht wird
LLM ohne Retrieval (z. B. GPT-4 Turbo ohne Browser) Nie, es sei denn deine Inhalte sind Teil des Trainingsdatensatzes (z. B. Wikipedia, CC-Inhalte)

Der Index ist semantisch gruppiert

Genau das ist der Kernunterschied zu klassischen Suchindizes:

  • Klassische Suchmaschinen (wie der Google-Suchindex) ordnen Inhalte über Keywords, Verlinkungen, TF-IDF, PageRank etc.

  • LLM-Indizes sind semantisch organisiert:

    • Jeder Textausschnitt wird als numerischer Vektor gespeichert

    • Texte mit ähnlicher Bedeutung liegen nah beieinander im Vektorraum

    • Es gibt keine „Ordnerstruktur“, sondern Nähe = Relevanz

➡️ Das bedeutet: Ein LLM „sieht“ nicht „diese Seite ist besser gerankt“, sondern:
„Diese Passage ist dem, was der Nutzer wissen will, bedeutungsmäßig sehr ähnlich.“

Beispiel: Was passiert bei einer Anfrage?

Stell dir vor, jemand fragt:

„Was ist der Unterschied zwischen SEO und SEM?“

  1. Die Frage wird als Vektor kodiert.

  2. Der Vektor wird mit Millionen Passage-Vektoren im Index verglichen.

  3. Die semantisch nächsten Passagen werden abgerufen.

  4. Daraus wird eine Antwort generiert (mit oder ohne Zitat).

 


Wie entscheidet ein LLM, welche Passage zitiert oder paraphrasiert wird?

Entscheidende Kriterien:

  • Semantische Nähe zur Anfrage (Embedding-Ähnlichkeit)

  • Inhaltliche Vollständigkeit und Klarheit (z. B. Definition, Anleitung, Vergleich)

  • Strukturierbarkeit (klarer, abgeschlossener Absatz)

  • Fehlende Ambiguität (keine vagen Verweise wie „dies“ oder „siehe oben“)

  • Zitierfähigkeit (z. B. durch klare Tripelstruktur: Subjekt – Prädikat – Objekt)

Beispiel für eine zitierfähige Passage:

„Relevance Engineering ist ein interdisziplinärer Ansatz, um Inhalte für KI-gestützte Suchsysteme sichtbar und verständlich zu machen.“

Diese Art von Passagen ist kurz, eindeutig, semantisch dicht – und damit ideale Kandidatin für KI-Zitierlogik.


Fazit für die SEO-Praxis

  • LLMs arbeiten nicht mit dem Google-Suchindex, sondern mit eigenen, semantisch organisierten Vektor-Indizes.

  • Diese sind passagebasiert, nicht seitenbasiert.

  • Deine Inhalte müssen so gestaltet sein, dass sie semantisch dicht, präzise und in sich schlüssig sind, damit sie in diesem System auffindbar und nutzbar werden.

Was du brauchst, um in KI-generierten Antworten aufzutauchen:

  • Indexierbare, gut crawlbare Seiten

  • Semantisch dichte Passagen mit klaren Aussagen

  • Modular strukturierte Inhalte, z. B. Fragen als Zwischenüberschrift + prägnante Antwort darunter

  • Zitierbare Formulierungen: Definitionen, Tripel, Listen, Bulletpoints

Wichtig: Klassisches Ranking ist nicht entscheidend – sondern semantische Relevanz im AI-Retrieval-Index.