Hoe meet je informatiedichtheid? De meeste mensen kunnen een pagina bezoeken en vrij snel beoordelen of deze veel marketing fluff en weinig inhoud bevat. Dat werkt prima wanneer je website uit een tiental artikelen bestaat, maar zodra je honderden of duizenden pagina’s hebt (zoals veel van onze klanten), moet je een manier vinden om dit proces te kwantificeren en te automatiseren, tenzij je een paar stagiairs bijzonder ongelukkig wilt maken.
Bij PromptMarketing hebben we verschillende methoden getest om informatiedichtheid te meten, waaronder lexicale dichtheid en propositionele dichtheid. De aanpak die uiteindelijk de meest consistente resultaten opleverde én schaalbaar bleef, bleek een embedded-gebaseerde methode te zijn.
Overzicht van de aanpak
- Deel pagina’s op in afzonderlijke zinnen.
- Genereer een embedding voor elke zin.
- Vergelijk elke embedding met het centroid van een verzameling marketingfluff-zinnen.
- Als de gemiddelde zin van een pagina dicht bij dit centroid ligt, heb je waarschijnlijk te maken met een pagina met een lage informatiedichtheid.
Waarom informatiedichtheid meten?
LLM’s die het web doorzoeken, maken sterk gebruik van een embedding-gebaseerde aanpak, zowel op paginaniveau als op chunkniveau. Dit betekent dat je pagina’s en hun embeddings zo dicht mogelijk moeten liggen bij de zoekopdrachten waarvoor je wilt worden gevonden in AI Search.
Marketing fluff zonder inhoud heeft de neiging om embeddings te verwateren, waardoor ze verder af komen te liggen van de relevante zoektermen. Bovendien is iedere zin op een pagina een potentiële citeerkans. Als je zinnen gemiddeld weinig informatie bevatten, neemt de kans dat een AI-systeem je content citeert aanzienlijk af.
Kort samengevat:
- Fluff vermindert de semantische overeenkomst. Algemene marketingtaal trekt pagina- en chunk-embeddings weg van de zoekopdrachten waarop je wilt scoren.
- Elke zin is een citeerkans. Wanneer zinnen gemiddeld weinig nieuwe informatie bevatten, hebben LLM’s minder reden om jouw content als bron te gebruiken.
Workflow
- Exporteer content als markdown met Screaming Frog.
- Splits elk artikel op in afzonderlijke zinnen.
- Maak embeddings voor iedere zin.
- Vergelijk elke embedding met het centroid van een verzameling marketingfluff-zinnen.
- Bereken de gemiddelde overeenkomst per pagina en bereken vervolgens: 1 - gemiddelde overeenkomst.
Wij noemen dit de specificiteitsscore. Een hogere specificiteit betekent doorgaans een hogere informatiedichtheid.
Hoewel de exacte waarden afhangen van het gebruikte embeddingmodel en de verzameling fluff-zinnen, hanteren wij de volgende richtlijnen:
- Onder 0,70: herschrijven is noodzakelijk.
- 0,70–0,75: presteert ondermaats, hoge prioriteit voor revisie.
- 0,75–0,80: acceptabel, later opnieuw beoordelen.
- Boven 0,80: doorgaans in orde.
Hoe voer je een informatiedichtheidsaudit uit?
Visualiseer de specificiteitsscores in intervallen van 0,05:
- X-as: specificiteit
- Y-as: aantal pagina’s binnen dat bereik
Bij een van onze klanten zagen we dat veel pagina’s zich bevonden in de range van 0,70–0,75, terwijl ongeveer de helft onder de 0,75 scoorde. Uit ervaring blijkt dat pagina’s met lage specificiteit vaak dezelfde kenmerken hebben:
- weinig of geen externe bronnen;
- weinig concrete actiepunten;
- weinig feitelijke, declaratieve uitspraken die daadwerkelijk informatie overbrengen;
- oudere content die is opgevuld om een woordenaantal te halen;
- content die gepubliceerd werd omdat er iets gepubliceerd moest worden, niet omdat er iets waardevols te vertellen was.
Omdat GEO-analyse verder gaat dan alleen je eigen website, analyseerden we ook de informatiedistributie van de grootste concurrent van deze klant. Deze concurrent presteerde consequent beter in LLM-resultaten.
De vergelijking liet zien dat de distributie van de concurrent aanzienlijk gezonder was. De piek lag tussen 0,75 en 0,80, met uitschieters tussen 0,90 en 1,00.
Bij een andere klant zag het beeld er nog beter uit. Het merendeel van de content scoorde ruim boven de 0,75. Opvallend was één pagina die tussen 0,60 en 0,65 scoorde: de "Over ons"-pagina. Die bleek vol te staan met marketingtaal zonder inhoud — precies wat je niet wilt in het tijdperk van AI Search. Een "Over ons"-pagina zou juist een van de sterkste pagina’s van je website moeten zijn en helder moeten uitleggen wat je organisatie daadwerkelijk doet.
In beide gevallen gaf één grafiek direct inzicht in welke pagina’s aandacht nodig hadden, zelfs binnen websites met honderden artikelen.
Wat we eerder hebben geprobeerd
Ik probeer dit soort tools zo eenvoudig mogelijk te houden. Daarom hebben we verschillende methoden getest voordat we uitkwamen op embeddings:
- Lexicale dichtheid: inconsistent en gaf geen duidelijk onderscheid tussen inhoud en fluff.
- Propositionele dichtheid: hetzelfde probleem; de resultaten waren erg wisselvallig.
De embedding-gebaseerde aanpak was de eerste methode die consistente en bruikbare resultaten opleverde.
Een logische vervolgstap zou zijn om LLM’s iedere pagina direct te laten beoordelen, maar dat zou duur, traag en niet-deterministisch zijn. Voor wat in essentie een triageproces is, zou dat overkill zijn.
Conclusie
AI Search wordt steeds sterker gestuurd door embeddings, en content concurreert steeds vaker op vectorniveau. Pagina’s vol generieke marketingtaal raken verder verwijderd van de zoekopdrachten die ertoe doen, terwijl LLM’s minder waardevolle informatie vinden om te citeren wanneer iedere tweede zin weinig inhoud bevat.
De specificiteitsscore biedt een snelle en schaalbare manier om de zwakste pagina’s binnen een contentbibliotheek te identificeren. Voer de audit uit, sorteer pagina’s op score en begin onderaan met herschrijven.
De score vertelt je niet hoe je een pagina moet verbeteren, maar wel zeer betrouwbaar welke pagina’s verbetering nodig hebben. En op grote schaal is dat vaak het moeilijkste probleem om op te lossen.