您的位置:首页 > 业界新闻

《大数据互联网大规模数据挖掘与分布式处理》阅读笔记一

2013-05-27 15:57 344 查看
作者:沈慧

在看书之前,先查了查到底啥是大数据,精炼《大数据的四大误区》中的观点,然后自己理解一下如下:
1. 大数据的数据量庞大是必要非充分条件,不仅要数据量有保证,更重要的是充分利用数据产生价值,分析数据才是核心!
2. 懂大数据是指能力,而非技能。不是很理解作者所讲的的能力的定义,私以为,在海量数据时代的数据压力和业务需求下,只有掌握了大数据分析的技能和方法,辅之以强大数据挖掘平台优势,才能像腾讯、百度、阿里一样利用数据挖掘系统这个重武器在互联网行业中获取门槛性的竞争力。
3. 并非所有公司都要一味追求懂大数据,很容易理解,这个肯定需要根据公司的产品定位而言,再者大数据、数据挖掘技术也并不能说是企业降低成本提高效率的法宝,人员、流程和架构都会有很大隐藏成本。
4. 数据并非越多越好,只有不停的使用数据,才能挖掘数据的价值,吐槽,这个和第一条有什么区别!

好玄乎,看起来就像是飘在空中的云,看的见,但是摸不着。还是翻开书,仔细看一下。希望有所收获。
第一章讲了数据挖掘的基础概念,定义,建模方法,统计限制,自己画了一个脑图,大家可以参考一下。



还是在啰嗦几句,以免自己看了又忘掉。
1. 数据挖掘的关键应该是在于正确的数据解读,遵循数据的本质,更需要科学的逻辑和合理想象力。也许最简单的数据所包含的的信息最有价值,并不是一定要涉及复杂的挖掘算法。传统的数据建模方法,离不开数据的汇总和特征的抽取,数据的汇总介绍了PageRank和聚类的一个实例,特征值抽取介绍了两种重要的类型:频繁项集和相似项。
频繁项集:典型购物篮问题,即找到多项搭配出现的元素。不知道是不是可以举例为本文中出现的双生词,两个单词一起出现的概率大于一个单词出现的概率,就可以将这两个单词的组合列入频繁项集
相似项:通过协同过滤,推荐与元素近似的另一些相似相。
2. 数据挖掘的统计限制,邦弗朗尼原理是对数据挖掘的过渡使用发出的警告。
3. 相关知识:
TF.IDF:用于从文档中计算单词的权重,具体可以参考这个网址/article/9693791.html
哈希函数及其使用:在某个关键字为key的数据记录放入在哈希表时,根据Key确定该记录在哈希表中的位置,使用中最关键的在于如何构造一个合理的哈希函数,哈希键的选择,和如何解决冲突。具体可以参考这个网址:/article/9287311.html
二级存储器,这一块谈论了由于磁盘和内存的本质差别,把磁盘的块看成是哈希表的桶,在所有桶记录中寻找特定的哈希键值,来提高讲块从磁盘移到内存的时间。并提出,大数据时,改变磁盘的组织方式已经无济于事,需要内存访问。
幂定律:两个变量在对数空间下呈现出线性的关系,在以下场景中经常都能满足幂定律:Web图中节点的度,商品的销量、Web网站的大小、Zipf定律。具体可以参考这个网址,讲的很清楚http://www.360doc.com/content/10/0811/00/84590_45147637.shtml

第一章还讲讲了本书概要,那就写到这啦,等看完第二章再继续吧…………
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐