您的位置:首页 > 其它

梦想蓝图--博客导读

2016-09-11 18:52 274 查看
    梦想蓝图--博客导读

    不知不觉已经接触大数据进三年多了,包括有一年多的大数据实战工作经历。这个历程中我有收获、快乐,同时也有痛苦和困惑等,但是每次大困惑和失落之后我都会有提升,也使得自己后面在看之前的痛做总结时感觉到丝丝甜意。不知从什么时候开始我有了想写技术博客的冲动,说是技术博客其实就是希望把自己遇到的和学到的东西,拿出来和大家一起讨论、分享。希望在写博客的过程中能够和大家一起讨论、分享,能够结交更多有共同兴趣点、话题的朋友。

     其实,大数据的出现并不是偶然性的,随着现代经济、科技和生活水准的提高,人们通过互联网或者其他通信设备、电子仪器进行交流、购物、工作、学习、就医、娱乐.......都已经成为了那么自然的事。当然,在前几年随着移动互联网的急剧发展,越来越多的人依赖上了这些电子产品,甚至出现了所谓的“戒网瘾”等类似的现象。但是时间证明了一切,当一个时代发展到一定程序时,那么与之对应该有的科技、生活方式、生存观念等都会应运而生,有些时候只是时间问题。所以当代互联网化、物联网化是必然的,也不可回避和阻挡的,我们应该做的是顺应并享受它。在这一切的背后一个东西悄悄地来了,那就是大数据,据统计进几年每年产生的数据,都能与以前几十年甚至更久的时间产生的数据匹敌。

      大数据地急剧增加,未能发现它价值的时候,视它如同垃圾不能发现其价值所在,甚至会因为存储、维护需要消耗资源,而想尽办法将其销毁。幸运的是很快聪明的人就发现了“数据资源”,通过处理、分析和研究这些不同时间、不同领域、不同形式的数据,可以获得前所未有的收获。这些因数据带来的利益,这里就不举例说明了,到处都可以查阅到感兴趣的可以自行去感受一下(有些时候需要到一个场景中去感受它,才能更好地理解和研究它)。

      结合自身的经历,我这里把大数据相关的事宜分为如下几个模块:大数据平台模块、大数据研发模块、大数据分析模块、大数据应用模块、大数据认知模块。当然,如果细分或者从不同角度分会有不同的结论,但是这里是基于我个人暂时研究和接触的程度暂定这五个部分。下面逐一对着五个部分做细节化的介绍,我希望大家在希望研究一个知识的时候,一定要先了解一下它存在的意义。不然无论你怎么努力,终会使你处于一个混沌模糊的状态下。下面简要谈谈各部分的情况,主要是为了让大能够在看到相应模块时,能够有意识的明白它是那个层面的东西,主要涉及哪些东西等。

大数据平台模块:大数据平台主要涉如下这些问题,一就是如何能够做到有机制地存储一直急剧增长的数据;二是如何能够使这样大规模海量的数据动起来,能够做些处理运算等;三如何能够做到在能处理海量数据的前提下提高执行效率......这些问题就是平台可能要考虑的问题。所以大数据平台应该为如搭建基于Hadoop为核心结合Hive、HBase、Spark、Storm等,“一个中心多个基本点”的生态系统。在不断地尝试使用不同的工具或者不同的搭配方式以实现性能的更优化。现状下,很多大数据工具都是开源的,所以许多公司可以很快地进入到大数据潮流中。但是,不得不提的是开源则必然面向通用性,也就是对于有特殊性业务需求的公司则应该做到自主研发或者基于开源的二次开发。简要说大数据平台涉及的有:1、大数据存储于运算框架如Hadoop生态系统;2、系统总作业调度管控系统如sqoop、DataX等;3、平台资源与作业如何能够做到资源充分利用作业最大性运行;4、平台如何能够实现健壮性,包括基础软件架构系统,还有硬件系统以及外部、内部攻击情况;5、实现为上层开发提供便捷,还应该考虑部分智能化、便捷化软件或者脚步工具开发;6、平台使用与维护规范;7、平台规模控制、扩展,短期、长期规划等。

大数据研发模块:大数据研发是进行数据接入、处理、加工和建模的阶段,正常的所谓BI(Business Intelligence)部门或者数据分析部,其实质就是大型数据仓库开发单位。首先,需要根据公司业务情况即先具有的资源情况,整体规划系统可能接纳的数据量。以及如何对数据进行分层设计,一般分为底层、中间层、上层(也就是源数据层、业务逻辑涉及层、数据效果展示层)。在做好整体分析与规划并且形成相应的文档和规范后,就是要和业务需求方进行对接,分析需求制定需求执行计划。然后将数据源接入到数据仓库(中心),因为研发数据一般为MySQL、SQL、Oracle、pg、db2等,所以建议以从库的形式接入。这样就有了底层数据,然后使用SQL语句逻辑等实现业务逻辑形成中间表。最后形成如报表形式的展示结果。所以一般涉及有:1、数据中心(仓库)建设、规划;2、数据接入(ETL)、处理,数据表建模;3、业务需求实现,展示结果和业务需求方核对业务逻辑,交接项目结果;4、数据清洗、整理;5、数据价值评估,数据资源的探索;6、数据仓库整体优化、迭代更新等。

大数据分析模块:这个阶段可能用大数据挖掘大家可能会更容易感知,主要是基于数据开发完成后的数据表,实现对数据业务的实现、数据提取、数据隐含信息的
9461
开发等。当然,一般数据分析会涉及许多分析工具的使用,如R语言、Matlab、Python等。从事着层工作的人,可能需要对向量、矩阵、线性函数等有比较敏感的能力。基本如大家知道的分类、聚类、回归等,这样概念、算法、实现场景等,都应该是做分析的人所应该具有,或者需要学习的地方。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。

大数据应用模块:谈到应用不知大家会有什么样的想法,也许大家都有发现现在在网站上搜索一个物品或者一件事,然后在后来就会出现搜索相关的广告。其实这就是大数据应用的一个典型,推荐系统,机会所有的电商平台、搜索网站都具有这样的功能。这里涉及的可能更多的是对更深层次算法的结合使用,以及对数据潜在价值的进一步利用。当然,应用也不一定就是要规模很大的项目,没有特定的界限,主要是看如何看待项目或者需求,如何去思考问题展现效果。

大数据认知模块:这个方面相对就是抽象,主要是从如何看待大数据,如为什么会存在大数据处理?为什么需要使用Hadoop生态系统处理大数据,而非高性能的关系型数据库?以及在从事大数据时应该具有什么样的工作态度?应该如何看待所要处理的数据和参与的项目?这些并非是技术层面的东西,但是很多时候这些却是决定项目优劣或能否深入学习大数据的关键。在工作或学习中,如果能够经常带有疑问的工作、学习,那么必将会得到你所想要得到的。

本博客初步不会涉及所有模块,暂定是会不断更新有关:大数据研发模块、大数据认知模块、部分平台架构、项目错误及问题解决这几个方面开展。当然随着与大家的交流和自我学习的提升,其他模块也必然会陆续展现。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: