网易科技讯 7月25日消息,今天Google在其官方博客发表文章,称Google索引的网页数目已经超过1万亿。
Google的索引工作于1998年开始运行,当时收集的网页数目为2600万个。10年后的今天,这一数目达到了惊人的1万亿。
在文中Google也承认互联网非常之大。互联网上到底在多少个独立的惟一页面?Google表示自己也搞不清楚。严格来说,网页数目几乎是无穷尽的。
另外Google还扼述了自己如何索引到所有这些网页的:首先搜索爬虫机器人找到一组互相链接的网页,顺着其中的链接抓取新的网页。然后再通过新网页包含的链接,抓取到更多的新网页和新链接。在这个过程中,Google找到了超过1万亿个链接,但并非所有这些链接都指向惟一性内容,因为许多不同的链接指向同样的网页。在移除了重复的链接后,剩下的就是Google今天索引到的1万亿个惟一性链接。而互联网上的链接都在以每天数十亿的数目逐日增加。