机器学习入门:K-Means聚类算法

feature

聚类算法是机器学习和数据挖掘领域中的一种常用算法,用于进行数据分类,把不同的数据分到不同的群组,听起来没什么的,但是用途还是挺多的,公司可以对客户资料进行聚类来对不同的客户采用不同的商业模式,电商可以根据聚类来为你推荐相似的商品。学校可以对学生考试成绩聚类来看你是好学生还是差学生。这篇博客将会讲述一种简单的聚类算法,K-Means聚类算法。

一起来写一个压缩软件吧

screen-shot-2016-12-05-at-1-15-23-am

十几年前的时候,电脑的储存容量还很小,最大硬盘空间只有40G都是很常有的事情,Windows XP安装时候加入了Zip打包功能,还有很早之前就很著名的压缩软件WinRAR,他们都可以将一堆文件打包并且压缩,换取更多的空间,这篇文章将会讲述霍夫曼压缩算法的基本原理,并且使用Java编写一个简单的压缩软件。

推荐系统入门之协作型过滤算法

product-recommendation-1024x402

双11刚过,又剁手了吧,各种电商,无论是淘宝,亚马逊,还是ebay。都搭载着一个推荐系统,这个推荐系统可以再你买过东西或者浏览过后分析并且给你推荐出你可能还需要购买的东西。再比如豆瓣,可以根据你对电影的喜好来为你推荐电影。可是,这些技术的背后又是什么呢?这个博客将会讲述一个推荐系统背后最基本的数学原理并使用Java实现。

网页爬虫系统的设计

Abstract-word-cloud-for-Web-crawler-with-related-tags-and-terms-Stock-Photo

网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。当你需要大量的网络数据的时候,比如需要做一些数据分析,需要学习一些基于内容处理的算法的时候,爬虫程序就可以来为你抓取网站上的数据,人工一个页面一个页面的查找复制肯定不是办法,这个时候就需要编写爬虫来自动的为你去抓取网页数据。这篇博客将会讲述网页爬虫的设计。

归纳文章中心词的算法:TF-IDF算法

TF-IDF-feature

在我的上一篇博客中,我介绍了Google的PageRank网页排名技术,并且说道,搜索引擎排名主要有两个因素,网页的质量和网页的相关程度,其中网页的质量已经交给了PageRank算法,这篇文章将会引入TF-IDF算法,这个算法可以通过分析一篇文章,并且归纳出这个文章的中心词。这个算法通常被搜索引擎用来确定某个查询的相关性,比如我在Google搜索“高斯模糊算法”,Google是如何寻找相关页面呢?可不只是确认一下页面的名字符不符合,搜索引擎会分析每个页面的内容来选取合适的结果。

Google搜索背后的PageRank算法

pagerank-feature

进入互联网时代以来,搜索引擎已经是人们离不开的东西,每当遇到问题,就要去请教搜索引擎,搜索引擎会根据你输入的关键字来返回成千上万的结果,但是,互联网上的资源是异常丰富的,搜索引擎是怎么样把用户真正想要的结果排在最前面呢?这个问题很大程度上决定了搜索引擎的质量,Google不会像百度那样把交了广告费八竿子达不到的东西排在最前面,给用户造成误解,这篇文章将会介绍Google的PageRank网页排名技术。