Internet heeft ruim 14,3 miljard pagina's

© CIDimport

Internet heeft ruim 14,3 miljard pagina's

Geplaatst: 13 juli 2006 - 05:07

Aangepast: 19 september 2022 - 13:01

Redactie ID.nl

Maurice de Kunder, student Bedrijfs-communi-catie en Digitale Media aan de Universiteit van Tilburg, stelde zich voor afstudeerscriptie de vraag hoe groot het doorzoekbare World Wide Web is; het stuk internet waar iedereen bij kan via zoekmachines als Google. De betrouwbaarste eindconclusie die De Kunder kan trekken is dat het www momenteel minstens 14,3 miljard webpagina's telt...

Internet heeft ruim 14,3 miljard pagina's

Maurice de Kunder, student Bedrijfs-communi-catie en Digitale Media aan de Universiteit van Tilburg, stelde zich voor afstudeerscriptie de vraag hoe groot het doorzoekbare World Wide Web is; het stuk internet waar iedereen bij kan via zoekmachines als Google. De betrouwbaarste eindconclusie die De Kunder kan trekken is dat het www momenteel minstens 14,3 miljard webpagina's telt... Het Nederlandse web telt volgens dezelfde veilige ondergrens-schatting minstens 291 miljoen webpagina's. Wanneer dezelfde automatische meetmethode gedurende een periode van een maand dagelijks wordt uitgevoerd, dan meet De Kunder een groei van ongeveer 2%.

De Kunder gebruikte een methode die uitgaat van woord- en documentfrequenties in verschillende tekstverzamelingen. Als een woord dertig keer voorkomt in een verzameling van 30.000 krantenartikelen, dan is de verwachte documentfrequentie van dat woord 1 op 1000. Als Google vervolgens meldt dat het 9 miljoen webpagina's kent waarop dat woord voorkomt, dan kun je daaruit concluderen dat Google mogelijk 9 miljard webpagina's opgeslagen heeft in zijn database. Door deze rekensom te herhalen voor een groot aantal woorden kon De Kunder de grootte van de database van Google, Yahoo Search, MSN Search, en Ask schatten. Deze vier zoekmachines, de vier grootste op dit moment, dekken voor een groot deel dezelfde webpagina's af, waardoor de grootte van hun databases niet zomaar opgeteld kan worden. De Kunder heeft daarom ook met een grote steekproef de overlap bepaald tussen de zoekmachines, en de uiteindelijke schatting gecorrigeerd op deze overlap.
Een opvallende uitkomst is dat met name Google zeer verschillende resultaten teruggeeft; in een meetperiode van een maand, waarin iedere dag gemeten werd, varieerde de geschatte grootte van de index van Google tussen de 25 en de 45 miljard webpagina's. Daarnaast lijkt Yahoo Search een veel betere dekking van het web te hebben wanneer de dekkingsgraad van willekeurige url's wordt gemeten. Bovendien overlapt de database van Yahoo meer met andere zoekmachines dan Google. De Kunder stelt dan ook vast dat Google niet de basis kan zijn voor een betrouwbare schatting van de grootte van het www, omdat Google mogelijk geen realistische en wellicht opgeblazen getallen teruggeeft, en dat Yahoo Search een betere basis is voor zo'n schatting.

Deel dit artikel
Voeg toe aan favorieten