Google 员工这么说。 Google关于规范化的官方文档使用重复数据删除一词来引用选择规范的过程,并列出了网。 重复页面的五个原因 “区域变体:例如,美国和英国的一段内容,可以从不同的 URL 访问,但本质上是相同语言的相同内容 设备变体:例如,同时具有移动版本和桌面版本的页面 协议变体:例如,站点的HTTP 和 HTTPS版本 站点功能:例如分类页面的结果排序和过滤功能 意外变体:例如,该网站的演示版本意外地被爬虫访问了” 可以通过三种不同的方式来考虑规范,并且重复页面至少有五个原因。 加里描述了另一种思考规范的方式。
信号用于选择规范
s分享了规范 秘鲁 电话号码 的又一个定义,这次是从索引的角度来看,并讨论了用于选择规范的信号。 加里解释说: “谷歌确定该页面是否与另一个已知页面重复,以及哪个版本应保留在索引中,即规范版本。 但在这种情况下,规范版本是一组重复页面中的页面,根据我们收集的有关每个版本的信号,最能代表该组。” 加里停止解释重复聚类,稍后又回到谈论信号。 他继续: “大多数情况下,搜索结果中只会出现规范页面。
但我们如何知道哪个页面
是规范的呢? 因此,一旦 Google 获 瑞士 电话号码列表 得了您的页面内容,或者更具体地说,获得了页面的主要内容或核心内容,它就会将其与一个或多个具有相似内容(如果有)的页面分组。这是重复聚类。” 只是想在此停下来指出,Gary 将主要内容称为“页面的中心部分”,这很有趣,因为 Google 的 Martin Splitt 引入了一个称为“中心部分注释”的概念。他并没有真正解释中心注释是什么,但加里分享的这一点很有帮助。 以下是视频中加里谈论信号实际上是什么的部分。 Illyes 解释了什么是“信号”: “然后它会比较已经为每个页面计算的一些信号,以选择规范版本。