您的位置：首页 > Web前端

Strata Data Conference Beijing教学辅导课 [多功能厅5B+C议题介绍]

2017-04-18 10:22 260 查看

大数据的数据模型
从Spark到Impala，再到Spark Streaming或Storm，分布式计算引擎最近的发展令人兴奋。然而，如果你的设计仅仅只是专注于数据处理层并期望得到高速度和性能，那么你可能就忽视了故事的另外一半，从而没能用到很多的优化方法。
Ted Malaska关注于技术栈的下层，将会介绍一系列在Cassandra、HBase、Kudu、Kafka、SoIR、Elasticsearch、HDFS和S3上实现的存储设计的模式和规划。通过仔细地调整每种业务场景下数据存储的方式，数据处理和访问的时间可以降低两到三个数量级。
你在本课程里学习到的策略和原理可以被应用于很多的软件环境。课程里会展示使用HDFS、HBase、Cassandra、Kudu、Kafka、Elasticsearch和S3的例子。

Hadoop应用的架构：欺诈检测
设计实现一个可扩展、低延迟的架构需要广泛了解各种框架，比如Kafka、HBase、HDFS、Flume、Spark、Spark Streaming和Impala等。好消息是现在有非常充沛的资源（书籍、网站、会议等）来深入了解和这些项目相关的信息。坏消息则是对于如何集成这些部件并实现完整的解决方案的信息却是相当得匮乏。

Ted将会指导参会者搭建一个欺诈检测系统，并使用一个端到端的案例研究作为一个具体的例子，展示如何使用Apache Hadoop组件（比如Kafka、HBase、Impala和Spark）来架构和实现一个实时系统。他会介绍架构设计实时应用的最佳实践和考虑点，为那些已经了解Hadoop和熟悉分布式数据处理系统的开发人员、架构师或是项目领导提供如何利用Hadoop组件来实现实时应用的更多的洞察。

主题包括：
在Kafka、HBase和Hadoop里建立数据模型，并为数据选择最优的存储格式

集成多个数据采集、处理和存储系统

收集和分析基于事件的数据，比如日志、机器生成的数据，并在Hadoop里存储这些数据

对数据做查询和出报表

Strata Data Conference北京站已经打开注册系统，阅读原文可浏览截止到目前为止的讲师名单和已经确认的议题，最优惠票价期截止到5月5日为止，尽快注册以确保留位。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航