Posts Tagged ‘Google研究’

Google研究显示使用XML Sitemaps的帮助新内容快速索引

Tuesday, April 21st, 2009

搜索引擎使用的程序来检索网页,并确定新的网页和最新的网页,包括在其索引中。这些通常被称为机器人,或爬行蜘蛛。但也有其他方式的搜索引擎获得信息的网页,它可能包括在搜索结果中。

阿白皮书从Google的Sitemaps :超越抓取的召唤( PDF格式) ,检查的效力, XML的网站,其中Google宣布作为实验要求Google在2005年的Sitemaps 。实验似乎取得了成功。

XML的Sitemaps是让网站所有者,以帮助搜索引擎索引的网页,他们的网站,通过使用一个XML站点地图。雅虎和微软加入Google在增加支持XML的Sitemaps后不久,和一套网页的Sitemaps协议解释启动。

该文件告诉我们,大约35一百万个网站发布的XML的Sitemaps ,截至2008年10月,提供数据的数十亿网址。虽然XML的网站已通过了大量的网站,我们没有多的信息从任何一个搜索引擎就如何对您有帮助这些Sitemaps已,他们如何可能被用来与网络抓取程序,如果他们作出差异获得多少网页索引,以及如何迅速。
本文回答一些问题,以研究如何利用XML的SitemapsGoogle在发现新的网页,以及新的内容,已经编入索引的网页,以及个案研究的三个不同的网站-亚马逊, CNN和PubMed的。

亚马逊的做法到XML的Sitemaps围绕着大量的网址列- 20万美元,以及增加新的产品定期进行。他们还采取努力,表明了规范,或最好的网址版本,产品的网页在他们的XML网站地图。

CNN的做法到XML的Sitemaps注重帮助搜索引擎找到增加了许多新的网址每天,也是典型的问题,解决他们的网页。

PubMed的有一个庞大的档案列出的URL他们的XML的Sitemaps ,几乎没有改变大多数人随着时间的推移,和变化率的网址列为每月。

一个地区的研究仅限于五点〇 〇亿网址,因为他们被发现在XML的Sitemaps ,它主要集中于决定是否使用XML的Sitemaps列入提供更高质量的网页比使用单独的检索程序,而不考虑网站地图信息。

另一个方面的研究在五十○点零零亿网址被认为双方的XML的Sitemaps ,并发现了网页,通过网络检索程序,来确定,如该办法显示最新鲜的版本的网页。看来,网站的方法找到了新的内容更快:

下一步,我们研究这两个检索系统, Sitemaps并发现,第一次看到的网址。我们进行这次测试的数据集组成的超过50网址被认为是这两个系统。根据最新的统计数据的时候,写作, 78 %的这些网址,看到的第一个网站相比, 22 %被认为通过首次发现。
最后一节论述了如何从XML Sitemaps的信息可能是所使用的搜索引擎,以帮助决定哪些网页抓取网站第一。

如果您使用XML的Sitemaps到您的网站上,您可能会发现一段有趣的个案研究,它说明如何亚马逊, CNN和PubMed的组织和利用这些Sitemaps 。

如果你不使用XML的Sitemaps在您的网站上,您可能需要通读本文,并考虑将其添加。