Ik ben Peter Breuls. Ik schrijf webapplicaties in PHP, filmreviews en onregelmatig iets op deze weblog. Welkom!
Onder de naam Devize ben ik beschikbaar als developer of consultant voor websites of webapplicaties.
Ik ben werkzaam als Administrator bij online community FOK! en als Lead Developer bij frontoffice-leverancier SIMgroep.

Hoe groot is de jouwe?

FOK!2 reacties

Arnoud heeft op WebDrain een interessant punt over de rangschikking van 'de grootste sites' van Nederland. Een partij waar ik nog nooit van gehoord heb, SiteDetail.nl, heeft bepaald dat binnen Nederland Hyves de grootste omvang heeft. Ja, omvang. Dat schijnt te worden gemeten in het aantal pagina's dat een website bevat.

Okay, dacht Arnoud, dat gaan we checken. In zijn post gebruikt hij de "site:{domeinnaam}"-techniek van Google om erachter te komen welke sites de meeste pagina's hebben en komt tot de conclusie dat de rangschikking van SiteDetail fout is. De nummer 1, Hyves, zou veel minder resultaten opleveren dan de nummer 2, eBay. Volgens SiteDetail komt dat doordat de "ajax-pagina's" van Hyves niet in de Google-index worden meegerekend. De met ajax gegenereerde pagina's zouden ook meegenomen moeten worden in de berekening.

Okay, denk ik dan. Daar wil ik, for the sake of argument, best even in meegaan. Wat is dan echter de goede index? Hoeveel pagina's heeft Hyves volgens SiteDetail? En hoeveel heeft eBay er? En hoe zit het met partijen als NU.nl (die volgens hun URL's een indruk wekt over het miljoen heen te zitten als je puur naar nieuwsberichten kijkt) of FOK!?

FOK! staat op plek 32, zegt SiteDetail, en NU.nl op 39. Okay. Met hoeveel pagina's? Is dat nog steeds grotendeels gebaseerd op Google-achtige gegevens, zij het met eigen interpretatie? Want dan wordt het allemaal wel erg arbitrair.

FOK! heeft volgens Google 338.000 pagina's. Dat klopt al niet. We hebben op het forum onlangs de grens van 1 miljoen topics overschreden. Daarbij hebben we ruim 75.000 nieuwsberichten, 3600 reviews en 2000 columns op de frontpage, ruim 16.000 berichten op de FOK!weblog, ruim 17.000 berichten en 8000 productpagina's op FOK!games en meer dan 37.000 nieuwsberichten op FOK!sport. En dan zijn we er nog niet. We hebben nog wat variaties: duizenden fotoboekprofielen, eindeloze overzichtspagina's, uitgebreide sportmanagerstatistieken, niet-meetbare privepagina's, tijdelijke sites voor Big Brother en de Olympische spelen, meerdere pagina's met gebruikersreacties voor elk van de genoemde berichtenpagina's en weet ik wat nog allemaal meer.

De vraag is of SiteDetail dat soort zaken allemaal meerekent. Zo niet, wat wordt er bij de andere sites in de lijst dan wel allemaal niet overgeslagen? Elke site is op een eigen manier ingedeeld, en op z'n eigen manier wel of niet transparant in hoe omvangrijk de site is. Kan een objectieve onderzoeker dat wel allemaal ontdekken?

Ik ben nieuwsgierig naar de exacte (of geschatte) wijze van meten. Wie is er nu echt de grootste? Want als je het toch wil meten (blijkbaar is het belangrijk, misschien een mannendingetje?), doe het dan wel correct.

Reacties

Mark

Hoi Breuls,
Misschien kan ik helpen het een en ander op te helderen. Even vooraf; ik ben niet betrokken bij sitedetail, ik ken degene die het lijstje heeft gepubliceerd.
Het lijstje is niet gebaseerd op gegevens van google. Voor de site sitedetail.nl is een eigen crawler geschreven en sitedetail beschikt daarom over een eigen index van het NL domein. Het is daarom ook logisch dat er een verschil zit tussen sitedetail en google. Google heeft zijn eigen manier van indexeren en zoals je zelf al aan gaf geeft deze niet een volledige index van een site. Voor zover ik weet tracht sitedetail dat wel te doen, echter zijn er geen site specifieke heuristieken toegepast waardoor ik me in kan denken dat er in specifieke gevallen wel eens pagina's niet meegeteld worden. Echter geeft de index van sitedetail een beter beeld van de grote (aantal unieke pagina's) van een site dan andere zoekmachines (wat sitedetail ook niet is). Na het schrijven en draaien van de crawler is er simpelweg een top 10 uitgedraaid. De resultaten waren opmerkelijk en niet af te leiden uit andere bronnen (zoals google), dat is de rede van publicatie. Het vinden van de grootste site is niet het doel van sitedetail, maar wel een leuk neveneffect. Of het belangrijk is ligt dus aan de lezer. Sitedetail geeft misschien niet een 100% accurate weergave van het aantal pagina's van een site (veroorzaakt door differentiatie, ambiguiteiten en de ondoorzichtigheid van sommige sites), maar het geeft een beter beeld dan dat zoekmachines doen die op een heel andere manier indexen genereren.
Hopelijk is het zo iets duidelijker.

Dannywebsite

Mark, het betere beeld dat gegeven wordt werk dus alleen bij sites waarbij transparantie is in subpagina's danwel sites die voldoen aan de criteria die de gebruikte crawler nodig heeft?
In dat geval kan hyves wel gewoon geboft hebben. Ik denk dat deze manier net zo onbetrouwbaar is als die van google. Beiden meten niet correct en volledig en dit hele onderzoek is dan ook compleet op lucht gebaseerd :')

Reageren