您的位置:首页 > 编程语言

《集体智慧编程》前言、第1章:集体智慧

2011-07-07 14:02 232 查看
本书读书笔记目录:/article/6988687.html

前言

(本书于2007年由O’Reilly出版)
Internet上由用户创造的献数据正在不断增加。这些数据暗含了用户的经历、喜好、行为特征等信息,因此对于商务决策、市场运作有很大价值。本书介绍一个正在崛起的领域——集体智慧。
本书的目标是让你能设计可以更聪明的程序,这些程序可以分析你获得的数据,从而帮你构建超越简单数据后台管理程序的应用。
本书主要涵盖数据挖掘、机器学习、搜索等领域的基础算法。

要求

本书中的代码全部使用Python边写,因此要求具有一定的Python知识(至少看懂)。

章节一览

每一章节都取自容易理解的实际问题。
第一章 集体智慧

解释机器学习的概念以及它如何应用。

第二章 推荐

(本节随阅读进行不断修订)

介绍协同过滤技术。协同过滤技术用来实现一些在线系统中的推荐功能。

第1章 集体智慧

几个例子,说明集体智慧荐的重要性:
Netflix是一个在线DVD租借公司,2006年曾悬赏1,000,000美元奖励能使其推荐系统精度提高10%的人。当前的领先者已经使精度提高了7%,使用的方法是分析公司的历史租借记录与评分数据。

Google通过在页面之间存在的链接关系计算页面的重要性,从而提供了精确度远超其他搜索引擎的搜索结果。现在Google已经是最大的搜索引擎。

还有很多其他的例子,例如婚恋网站异性匹配、在线商城购物推荐等。

什么是集体智慧?

顾名思义,集体智慧就是集体显示出来的智慧。比如从很多人那里收集针对一个问题的答案,然后根据这些人的回答得出一个综合性的结论,这个结论往往十分准确,而让其中的任何一人独立思考,都没有办法得出这样准确的结论。
集体智慧早在Internet诞生之前就已经存在了。但随着Internet的发展,越来越多的内容是由广大普通用户创造出来的。因此如何发掘其中蕴含的集体智慧,也变得十分重要。
几个Internet上集体智慧的例子:
Wikipedia. Wikipedia里的词条章完全由网友编写。通过广大网友的不断修正,Wikipedia的词条数目超过了现有的所有传统百科全书,并且大多数词条的内容十分准确可信。

Google. 前一章提到,Google通过页面之间的链接关系计算页面的重要程度。本质上,这种链接关系是由页面的创建者定义的。与Wikipedia显式地邀请网友编辑词条不同,Google的页面排序算法挖掘了隐含在页面中的页面创建者对于页面重要性的评价(比如说我认为页面A很重要,那么我可能会在我的很多页面上加入指向A的链接,并且这些链接位于显眼的位置)。这也是一种集体智慧。

什么是机器学习?

机器学习是人工智能的一个分支。机器学习使得计算机具有了学习的能力。大多数情况下,机器学习算法输入一个数据集,并从中推断出一些该数据集的属性,这些属性是对未来数据做出预测的依据。或者说通过已有数据训练一个模型,使用这个模型可以确定未来数据的一些相关属性。
考虑一个垃圾邮件过滤的例子:你收到很多正文包含“网络药店”字样的垃圾邮件。你会因此认为包含“网络药店”字样的邮件都是垃圾邮件,可以直接移入垃圾箱了。这就是一个一般化的过程:你通过已有的垃圾邮件特征训练出了一个识别垃圾邮件的模型。对于一个过滤垃圾邮件的机器学习算法来说原理是类似的:你负责标记垃圾邮件,而它从被标记为垃圾邮件的邮件中寻找一般规律,并以此作为判定未来邮件是否为垃圾邮件的依据。
机器学习算法有很多,它们各自适应不同的问题。有些算法是“透明”的(像决策树),算法的每一步执行都清晰可见;而有些算法(像神经网络)是个“黑盒”,得出决策结果的过程很难再现。

机器学习的局限性

机器学习远非智能,而只是从一堆已有数据中抽取模式,然后根据模式处理新数据。这与人类结合知识、经验进行学习是不同的。以垃圾邮件过滤为例,机器学习算法只能够根据单词/短语出现情况计算,而无法看懂句子,这与人分辨垃圾邮件的方法差距很大。

机器学习存在过拟合问题。一个规模有限的输入集并不能很好地代表所有可能出现的情况,因此如果训练出来的模式过度匹配输入集,就有可能出现过拟合问题。当过拟合出现是,虽然训练出的模式能够很好匹配已有数据,但对于新数据应用,准确性将大打折扣。

现实应用举例

关于集体智慧与机器学习的现实应用举例如下:
广告投放(Google)

推荐系统(前面提到的Netflix)

市场形势预测

婚恋网站异性匹配

……

学习算法的其他应用

生物技术(biotechnology)。发掘DNA序列中的模式,帮助理解生理过程。

金融欺诈行为识别。从行为集中发现可能存在欺诈的行为。

机器视觉。辨识图像中的物体。

产品营销。根据销售历史确定未来最优影响方案。

供应链优化。根据历史记录确定影响供应链效率的关键因素,进而优化。

股市分析。发现模式,帮你赚钱。

国家安全。类似2.

这只是一些最常见的例子。随着用户创造的信息越来越多,使用学习/统计手段分析数据将会越来越普遍。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: