您的位置:首页 > 其它

五步帮你实现用户画像的数据加工

2018-02-01 14:45 806 查看
企业最终的数据往往都隐藏在日志背后,如果从日志背后挖掘出有价值的信息,勾画出平台或网站的用户画像对精准化运营有着重要的帮助。阿里云技术专家祎休带来阿里在处理日志、构建数仓上的最佳实践分享。主要从数仓开发开始谈起,重点讲解了数据加工用户画像的五大步骤,最后进行了演示解析。
直播视频回顾请点击

以下是精彩视频内容整理:


数据融合加工-数仓开发

大数据仓库特殊引擎提供我们一站式的PB级大数据仓库解决方案,那么,我们如何基于MaxCompute去构建仓库,如何去帮数据进行清洗加工,然后去挖掘出有价值的信息?MaxCompute2.0推出了一些新功能,比如说非结构化数据的处理, MaxCompute支持非结构化数据存储在OSS上,以前的方式是通过数据集成工具或者自己去写一些任务,将这些数据周期性或者一次性同步到MaxCompute上来,既有开发成本,又有运维成本,在2.0里面我们支持直接创建外部表的方式连接数据源,直接对数据进行处理。



在数仓上的开发规范如图,从日志数据、用户基本信息数据等里面去挖掘出价值信息,然后涉及到数据开发人员做一些ETL的设计,包括我们的一些开发编码、设置,将任务提交到线上,在线上我们会遇到过去的一些数据运维工作,这些运维工作是不是可以在Dataworks里面去完成?下面我们一起来了解操作细节。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。


1. 需求分析



通常情况下会以一个这样的链路图去做用户画像,可以看到,用户画像通常情况下会包含两个部分,动态数据和静态数据。动态数据包括行为数据、页面行为、交易数据,比如说你的用户点击浏览数据等都可以放在动态的数据里面去,比如说在我们的网站整个的访问深度,是不是在页面上形成了时长有多少,在某一整个链路上注册开通再到数据开发的跳失率是多少等等;静态数据更多的是关于人的一些属性,比如说姓名、星座、年龄、长居地以及通常使用什么样的设备去访问我们的网站等等,所以有一些终端设备的偏好信息。

原文链接
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: