Deze saaie introductie bestaat met een reden, en aan het einde van dit artikel begrijp je waarom.
Onderzoek laat consequent zien dat AI-zoeksystemen veel gewicht toekennen aan de eerste 30% van de tekst van een artikel. In dit artikel beargumenteer ik dat dit ten minste gedeeltelijk wordt veroorzaakt doordat embeddingmodellen meer gewicht geven aan het eerste deel van een tekst bij het vormen van de uiteindelijke vector. Ik toon dit aan door een verstorend stuk tekst (over paarse clowns) op verschillende plekken in een normaal artikel (over de piramides van Egypte) te plaatsen. De resultaten laten zien dat het plaatsen van deze verstorende tekst aan het begin van het artikel een grotere invloed heeft op de uiteindelijke vector dan wanneer dezelfde tekst later in het artikel wordt geplaatst.
Waarom dit belangrijk is
Waarom is dit belangrijk? Waarom zouden we rekening moeten houden met welk deel van een tekst embeddingmodellen belangrijk vinden?
Omdat je in AI Search vrijwel niet om embeddingmodellen heen kunt. AI-systemen gebruiken ze zowel op paginaniveau als op chunkniveau. Een lage overeenkomst tussen de embedding van je pagina en de zoekopdracht waarop je wilt worden gevonden, kan betekenen dat je helemaal niet wordt meegenomen als kandidaat voor citaties. Omdat je concurreert met veel andere pagina's, kan het de moeite waard zijn om elk mogelijk procentpunt aan relevantie en overeenkomst te benutten.
Wat is een embedding?
Ik zal in dit artikel niet te diep op de techniek ingaan, maar voor wie er nog niet mee bekend is:
Een embedding is een techniek om de betekenis van een stuk tekst (een woord, zin of compleet document) weer te geven als een reeks getallen. Deze getallen vertegenwoordigen coördinaten in een n-dimensionale ruimte, de zogenaamde embedding space. Hierdoor kunnen afstanden tussen teksten worden berekend. Teksten die dicht bij elkaar liggen in deze ruimte hebben doorgaans een vergelijkbare betekenis.
Het experiment met de paarse clown
Om aan te tonen dat het eerste deel van een tekst daadwerkelijk een grote invloed heeft op de uiteindelijke vector, heb ik een eenvoudig experiment uitgevoerd.
Ik heb een verstorende paragraaf op verschillende posities in een artikel geplaatst en vervolgens gemeten hoe sterk de overeenkomst afweek van het oorspronkelijke artikel.
Claude schreef een algemeen artikel van zes paragrafen over de Egyptische piramides. Daarnaast liet ik Claude een losse paragraaf schrijven over paarse clowns.
Deze twee onderwerpen lijken totaal niets met elkaar te maken te hebben — en dat is precies de bedoeling. Ik wilde dat het effect zo duidelijk mogelijk zichtbaar zou zijn.
Vervolgens plaatste ik de clownparagraaf op verschillende plekken in het artikel en genereerde ik embeddings voor alle versies.
Daarna hoefde ik alleen nog de afstand te meten tussen de aangepaste versies en het oorspronkelijke artikel. Hoe verder een versie verwijderd was van het origineel, hoe groter de invloed van de clownparagraaf op de embedding.
Resultaten: is de introductie belangrijk voor paginaniveau-overeenkomst?
Voor Google / Gemini is het begin van de tekst het belangrijkst
De resultaten waren glashelder.
Wanneer de eerste paragraaf van een artikel niet aansluit bij de rest van de inhoud, veroorzaakt dit een verstoring die binnen het embeddingmodel moeilijk te corrigeren is. De eerste chunk trekt zo sterk in een andere richting dat de rest van het artikel moeite heeft om dat effect te compenseren.
Dit effect was het sterkst zichtbaar in gemini-embedding-2-preview, Google's nieuwste embeddingmodel. Het verschil in overeenkomst bedroeg ongeveer 0,14 — een zeer grote afwijking in embeddingtermen.
Actiepunt: Zorg ervoor dat je introductie aansluit bij de rest van de tekst én bij de zoekopdrachten waarvoor je optimaliseert. Een irrelevante anekdote kan prettig lezen, maar verstoort de uiteindelijke embedding op een manier die lastig te herstellen is.
Voor OpenAI / ChatGPT blijkt juist het einde van de tekst belangrijker
Verrassend genoeg lijken de embeddingmodellen van OpenAI meer gewicht toe te kennen aan het einde van een tekst.
Een irrelevante conclusie veroorzaakte verstoringen tot wel 0,40 in overeenkomst. Dat is een enorme afwijking en laat zien hoe cruciaal de conclusie van een tekst kan zijn voor de paginaniveau-embedding binnen ChatGPT.
Actiepunt: Zorg ervoor dat je conclusie aansluit bij zowel de rest van de tekst als de zoekopdracht waarop je mikt. OpenAI lijkt het laatste deel van een tekst onevenredig zwaar mee te laten wegen in de uiteindelijke embedding. Een generieke of afwijkende afsluiting kan daardoor schadelijker zijn dan je zou verwachten.
Zinnen
Om te onderzoeken of dit effect ook op paragraafniveau zichtbaar is, heb ik hetzelfde experiment uitgevoerd binnen afzonderlijke paragrafen.
Claude genereerde één zin over paarse clowns. Vervolgens plaatste ik die zin op iedere mogelijke positie binnen verschillende paragrafen over de piramides.
Voor dit experiment kwamen Google- en OpenAI-modellen opvallend genoeg tot vergelijkbare resultaten.
De eerste zin van een paragraaf blijkt veel gewicht te hebben in de uiteindelijke embedding van die paragraaf. Het effect was het sterkst zichtbaar bij OpenAI-modellen, waar de gemiddelde verstoring ongeveer 0,14 bedroeg. Bij Google's modellen lag dat verschil rond 0,02.
Actiepunt: Dit suggereert dat de eerste zin van iedere paragraaf een belangrijke rol speelt in hoe embeddingmodellen die paragraaf interpreteren. Omdat AI-zoeksystemen content doorgaans eerst opdelen in chunks voordat ze embeddings genereren, kan dit direct invloed hebben op welke stukken tekst worden opgehaald en geciteerd. Begin daarom iedere paragraaf met een duidelijke, inhoudelijke zin die het onderwerp direct benoemt, in plaats van met overgangszinnen of contextuele opvulling.
Mogelijke verklaringen
Er zijn verschillende mogelijke verklaringen waarom embeddingmodellen meer gewicht toekennen aan bepaalde posities binnen een tekst.
Ten eerste kan dit voortkomen uit de trainingsdata. Wetenschappelijke artikelen plaatsen hun belangrijkste informatie meestal aan het begin, bijvoorbeeld in de samenvatting. Ook online content volgt vaak dat patroon. Modellen kunnen hierdoor geleerd hebben dat vroege tekst statistisch gezien belangrijker is.
Daarnaast is er een technische verklaring. De meeste embeddingmodellen zijn gebaseerd op transformerarchitecturen en maken gebruik van positionele encoderingen. Daardoor weet het model waar woorden zich bevinden binnen een tekst. Vroege tokens bepalen het onderwerp en beïnvloeden hoe alle daaropvolgende tokens worden geïnterpreteerd. Tegen de tijd dat de volledige tekst wordt samengevat in één vector, hebben die vroege tokens al invloed gehad op de volledige representatie. Dit hangt samen met het bekende lost in the middle-fenomeen, waarbij informatie midden in een contextvenster minder aandacht krijgt dan informatie aan het begin of einde.
Belangrijkste inzichten en actiepunten
1. Begin je introductie direct met relevante inhoud
Google's embeddingmodellen geven onevenredig veel gewicht aan het begin van een tekst. Een irrelevante introductie kan de embedding van de hele pagina wegtrekken van de zoekopdrachten waarop je wilt scoren. Bewaar anekdotes liever voor later.
2. Verwaarloos je conclusie niet
OpenAI-modellen laten het tegenovergestelde patroon zien en geven veel gewicht aan het einde van een tekst. Een generieke of niet-relevante afsluiting kan je zichtbaarheid binnen ChatGPT negatief beïnvloeden. Zorg ervoor dat je conclusie nauw aansluit bij het hoofdonderwerp.
3. Begin iedere paragraaf met een duidelijke hoofdzin
Alle vier de geteste modellen waren het hierover eens: de eerste zin van een paragraaf draagt veel gewicht in de chunk-embedding. Dat is extra relevant omdat AI-systemen content meestal opdelen in chunks voordat ze deze analyseren.
4. Verschillende aanbieders hebben verschillende voorkeuren
Google en OpenAI gaan verschillend om met positionele weging. Als je voor beide wilt optimaliseren, is de veiligste strategie om ervoor te zorgen dat zowel het begin als het einde van je content het onderwerp en de doelgroepzoekopdrachten duidelijk weerspiegelen.
Conclusie
Embeddingmodellen behandelen niet ieder deel van een tekst gelijk. De plek waar je informatie positioneert binnen een artikel — en zelfs binnen een paragraaf — heeft een meetbare invloed op de uiteindelijke embedding.
Voor Google's modellen is de introductie het belangrijkst. Voor OpenAI's modellen is dat juist de conclusie. En op paragraafniveau zijn alle geteste modellen het eens: de eerste zin draagt het meeste gewicht.
Dit betekent niet dat je je introductie moet volstoppen met zoekwoorden of als een robot moet schrijven. Het betekent wel dat de structuur van je content direct beïnvloedt hoe AI-zoeksystemen jouw content interpreteren.
Zoals dit experiment laat zien, zijn die verschillen allesbehalve klein.
Misschien is het je opgevallen dat de introductie van dit artikel ongewoon direct en samenvattend was.
Nu weet je waarom.