归纳文章中心词的算法:TF-IDF算法

TF-IDF-feature

在我的上一篇博客中,我介绍了Google的PageRank网页排名技术,并且说道,搜索引擎排名主要有两个因素,网页的质量和网页的相关程度,其中网页的质量已经交给了PageRank算法,这篇文章将会引入TF-IDF算法,这个算法可以通过分析一篇文章,并且归纳出这个文章的中心词。这个算法通常被搜索引擎用来确定某个查询的相关性,比如我在Google搜索“高斯模糊算法”,Google是如何寻找相关页面呢?可不只是确认一下页面的名字符不符合,搜索引擎会分析每个页面的内容来选取合适的结果。

Google搜索背后的PageRank算法

pagerank-feature

进入互联网时代以来,搜索引擎已经是人们离不开的东西,每当遇到问题,就要去请教搜索引擎,搜索引擎会根据你输入的关键字来返回成千上万的结果,但是,互联网上的资源是异常丰富的,搜索引擎是怎么样把用户真正想要的结果排在最前面呢?这个问题很大程度上决定了搜索引擎的质量,Google不会像百度那样把交了广告费八竿子达不到的东西排在最前面,给用户造成误解,这篇文章将会介绍Google的PageRank网页排名技术。