网页爬虫系统的设计

Abstract-word-cloud-for-Web-crawler-with-related-tags-and-terms-Stock-Photo

网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。当你需要大量的网络数据的时候,比如需要做一些数据分析,需要学习一些基于内容处理的算法的时候,爬虫程序就可以来为你抓取网站上的数据,人工一个页面一个页面的查找复制肯定不是办法,这个时候就需要编写爬虫来自动的为你去抓取网页数据。这篇博客将会讲述网页爬虫的设计。

归纳文章中心词的算法:TF-IDF算法

TF-IDF-feature

在我的上一篇博客中,我介绍了Google的PageRank网页排名技术,并且说道,搜索引擎排名主要有两个因素,网页的质量和网页的相关程度,其中网页的质量已经交给了PageRank算法,这篇文章将会引入TF-IDF算法,这个算法可以通过分析一篇文章,并且归纳出这个文章的中心词。这个算法通常被搜索引擎用来确定某个查询的相关性,比如我在Google搜索“高斯模糊算法”,Google是如何寻找相关页面呢?可不只是确认一下页面的名字符不符合,搜索引擎会分析每个页面的内容来选取合适的结果。

Google搜索背后的PageRank算法

pagerank-feature

进入互联网时代以来,搜索引擎已经是人们离不开的东西,每当遇到问题,就要去请教搜索引擎,搜索引擎会根据你输入的关键字来返回成千上万的结果,但是,互联网上的资源是异常丰富的,搜索引擎是怎么样把用户真正想要的结果排在最前面呢?这个问题很大程度上决定了搜索引擎的质量,Google不会像百度那样把交了广告费八竿子达不到的东西排在最前面,给用户造成误解,这篇文章将会介绍Google的PageRank网页排名技术。

MiniMax算法优化:Alpha-Beta剪枝算法

alphabeta

通过前面两次博客的介绍,现在我们已经可以在手机上写出一个三子棋游戏,并且可以使用Minimax算法为游戏添加AI,让程序也学会下三子棋。但是其中Minimax算法是使用了一种全局搜索,这个算法会遍历整个博弈树的所有节点,在三子棋中,博弈树的深度和广度并不是很大,但是如果到了五子棋或者其他棋类,博弈树的深度和广度将会成指数型增长,这下再不优化算法的话,程序走一步棋就可能要运算几天了,特别浪费时间。这篇博客将会讲述Minimax算法的优化。其中包括负极大值算法和Alpha-Beta剪枝算法。