如何筹建公司的大数据分析系统(一)
2017-09-30 17:09
477 查看
浅谈下,如标题这个问题:随着大数据被不停的挖掘,每天有态度的人利用用户数据信息,产生巨大的商业价值,以及风险告警,在筹建大数据分析系统时,大家都很热衷新的东西,在做公司架构体系时,动不动就直接上新的技术,导致项目夭折,最后走人换公司的局面,后来不断的有人去填坑。随着Splunk 的声势浩大,导致目前公司采用起来的成本太高,所以选择方案的时候需要均衡发展,达到良性可伸缩的系统框架。采用ELK框架进行日志分析系统构建:ELK是Elasticsearch、Logstash、Kibana的简称,这三者是核心套件Elasticsearch是实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能;是一套开放REST和JAVA API等结构提供高效搜索功能,可扩展的分布式系统。它构建于Apache Lucene搜索引擎库之上。
Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志,包括系统日志、错误日志和自定义应用程序日志。它可以从许多来源接收日志,这些来源包括 syslog、消息传递(例如 RabbitMQ)和JMX,它能够以多种方式输出数据,包括电子邮件、websockets和Elasticsearch。
Kibana是一个基于Web的图形界面,用于搜索、分析和可视化存储在 Elasticsearch指标中的日志数据。它利用Elasticsearch的REST接口来检索数据,不仅允许用户创建他们自己的数据的定制仪表板视图,还允许他们以特殊的方式查询和过滤数据。
这种架构、验证依赖、缺点是Logstash耗资源较大,运行占用CPU和内存高,严重依赖RabbitMQ消息队列缓存,存在丢失数据隐患,小型公司比较适合。 第二种架构、基于kafka 或者redis
Logstash中心节点和Elasticsearch节点都需要采用集群节点,做相应的负载均衡,缓解服务器压力,此方案适用于大型架构、虽然引用了消息队列机制,Logstash占用系统资源过度,需要庞大的集群做支撑,建议对不同应用类型的数据进行分类展示,避免大面积分析系统不可用。 为了很好的缓解logstash占用系统过多的问题,将Logstash-forwarder替换为BeatsBeats 平台是 Elastic.co 从 packetbeat 发展出来的数据收集器系统。beat 收集器可以直接写入 Elasticsearch,也可以传输给 Logstash。其中抽象出来的 libbeat,提供了统一的数据发送方法,输入配置解析,日志记录框架等功能。目前这种方案很多公司都在此基础上做二次开发。
在海量日志系统的运维中,以下几个方面是必不可少的:分布式日志数据集中式查询和管理
系统监控,包含系统硬件和应用各个组件的监控
故障排查
安全信息和事件管理
报表功能
怎么基于数据提升自我价值,为公司提供实时可靠的数据分析,让市场部掌控着市场,让营销部定点的做业务推广,从而实现技术价值,也实现这种方案的价值,发挥到极致。根据庞大的应用日志可以分析出用户分布的位置、行为、动态、习惯等等。
Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志,包括系统日志、错误日志和自定义应用程序日志。它可以从许多来源接收日志,这些来源包括 syslog、消息传递(例如 RabbitMQ)和JMX,它能够以多种方式输出数据,包括电子邮件、websockets和Elasticsearch。
Kibana是一个基于Web的图形界面,用于搜索、分析和可视化存储在 Elasticsearch指标中的日志数据。它利用Elasticsearch的REST接口来检索数据,不仅允许用户创建他们自己的数据的定制仪表板视图,还允许他们以特殊的方式查询和过滤数据。
这种架构、验证依赖、缺点是Logstash耗资源较大,运行占用CPU和内存高,严重依赖RabbitMQ消息队列缓存,存在丢失数据隐患,小型公司比较适合。 第二种架构、基于kafka 或者redis
Logstash中心节点和Elasticsearch节点都需要采用集群节点,做相应的负载均衡,缓解服务器压力,此方案适用于大型架构、虽然引用了消息队列机制,Logstash占用系统资源过度,需要庞大的集群做支撑,建议对不同应用类型的数据进行分类展示,避免大面积分析系统不可用。 为了很好的缓解logstash占用系统过多的问题,将Logstash-forwarder替换为BeatsBeats 平台是 Elastic.co 从 packetbeat 发展出来的数据收集器系统。beat 收集器可以直接写入 Elasticsearch,也可以传输给 Logstash。其中抽象出来的 libbeat,提供了统一的数据发送方法,输入配置解析,日志记录框架等功能。目前这种方案很多公司都在此基础上做二次开发。
在海量日志系统的运维中,以下几个方面是必不可少的:分布式日志数据集中式查询和管理
系统监控,包含系统硬件和应用各个组件的监控
故障排查
安全信息和事件管理
报表功能
怎么基于数据提升自我价值,为公司提供实时可靠的数据分析,让市场部掌控着市场,让营销部定点的做业务推广,从而实现技术价值,也实现这种方案的价值,发挥到极致。根据庞大的应用日志可以分析出用户分布的位置、行为、动态、习惯等等。
相关文章推荐
- 如何系统学习数据分析?
- 如何写系统分析书
- 如何规划农商行商业智能系统中的决策分析系统?
- 如何查看linux系统下的各种日志文件 linux 系统日志的分析大全
- 如何进行大数据分析及处理?
- R语言和Hadoop系统架构在大数据分析中的应用
- 一个新手如何系统的学习数据分析
- 大数据分析与机器学习系统学习路线指导(1)
- 互联网大公司体制内创新的重重阻力 从大公司的管理体制和考核制度等多个角度阐述,大公司体制内创新的困境,这也是国内多数公司面临的问题,本篇分析了阻碍体制内创新的原因,也给出了如何推进公司体制内的创新项目
- 大数据时代SEO数据如何搜集和分析
- 如何大数据分析可以影响业务成果
- 如何写系统分析书
- 如何写系统分析书
- 如何分析解决COM接口IFileOperation的hook去支持vista、win7、win8、win10 x86 x64系统
- Android5.1 Framework分析----如何在SystemServer中添加系统服务
- 【性能】如何利用vmstat分析系统性能
- 生产制造MES系统中,如何应用报表分析?
- 如何分析一个完整的系统(系统源码分析思路一)
- 提供大数据分析服务以及机器学习API的公司
- 非正常离开公司的WEB系统页面后,如何销毁Session