什么是MatrixNet
2009年Yandex引进了新机器学习方法 —— MatrixNet。抗过度拟合性是该方法的重要特点。这个方法允许考虑到很多排名因素,同时不增加评测员的评测数量更不用担心机器会找到不存在的规律。Yandex搜索引擎排名程序就是基于MartixNet机器学习方法的。
借助MatrixNet方法可以构建很长、很复杂、考虑到很多因素与因素组合的排名公式。其他机器学习方法允许构建因素数量更少的、更短的公式,或要求给定更大的训练样本。MatrixNet构建数万个系数的公式,所以搜索准确性明显提高。
MatrixNet方法具有另一种重要特点 — 它允许调整搜索查询范围较窄的排名公式。例如,可以专门提高音乐查询相关的搜索效率。与此同时,其他查询分类相关的排名不会受影响。我们可以把排名公式以易于了解的形式表达出来,假如,它是一种具有多手柄的复杂机器,那么基于其他技术机器的每把手柄影响所有的查询,而MatrixNet允许我们针对具体的查询类型单独调整每把手柄。
此外,MatrixNet针对排名因素不同的范围值自动选择灵敏度。这种过程有点与机场环境相同 — 在飞机起飞反复不停的噪音需要听到人们的声音。如果蒙上耳朵,仍会听到飞机噪音,而人声却听不到。所以机场工作人员有专门的对大噪音灵敏度底的耳机 — 这样可以听到人们的声音。
排名程序是运作原理
因为搜索引擎的数据处理量很大,根据每个搜索查询引擎需要处理数百万的网页,确定其相关性以及进行排序 — 相关性最高的网页排在上面。为了轮流检查每个网页属性需要很多能够很快处理所有网页相关数据的服务器或者需要很长时间,不过,用户不能等待这么久。MatrixNet允许瞬间检查很多因素,且不需要大幅扩大计算能力。
搜索程序在数千个服务器同时进行。每个服务器根据其搜索索引的部分产生最佳搜索结果清单。该清单包括搜索查询最相关的网页。以后,所有的清单合并在一起以及根据MatrixNet排名公式对所有的清单中的网页进行排名。结果,相关性最高的网站排名在最前位置,而用户能够几乎瞬间获得答案。