您的位置：首页 > 大数据

大数据分析--用户画像

2016-04-08 11:51 1816 查看

从去年还在北京工作的时候就开始不断的听说，用户画像、用户画像，而且，有个项目，项目领导美其名曰：用户画像，这么长时间，也没有真正的思考过什么叫用户画像。前几天看到一篇关于这方面的文章，决定整理消化，希望通过这种方式可以成为我自己的知识。

一、什么是用户画像（user profile）

用户画像，简而言之就是对用户信息的标签化，如图1所示。

二、为什么需要用户画像

用户画像的核心工作是为用户打标签，一方面，标签化是对用户信息的结构化处理，方便计算机识别和处理，方便进行分类统计（男女比例）、数据挖掘（利用关联规则计算喜欢红酒和喜欢运动品牌的关系）、推荐引擎、广告精准投放等；另一方面，标签本身具有准确性和非二义性，有利于人工整理、统计、分析；

三、如何构建用户画像

标签：人为规定的高度精炼的标识，如年龄段标签：25-35岁，地域标签：北京，标签本身无需进行文本预处理工作；

用户信息一般可以分为两类：静态信息和动态信息。
静态信息：例如：性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等，在收集和清洗用户属性的过程中，需要注意的主要是标签的规范化以及不同来源信息的交叉验证。
动态信息：用户不断变化的行为和兴趣信息，首先兴趣受到人群、环境、热点事件、行业……等方面的影响，一旦这些因素发生变化，用户的兴趣容易产生迁移；其次，用户的行为（特指在互联网上的行为）多样且碎片化，不同行为反映出来的兴趣差异较大。
以下从两个行业构建用户的动态标签：
微博用户兴趣标签：
1、标签来源：
用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外，他关注用户的标签也会传递到该用户身上。如图2所示（蓝色实线代表关注关系，橙色虚线代表兴趣标签来源）。

2、标签权重：

在收集到一个用户可能存在的标签后，还需要给标签赋一定的权重，用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量，标签的传递路径，转发关系，标签的本身，以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样，质量越高，认为该标签的可信度越高，无论是将该标签赋给自己还是传递出去的时候其权重值越高。标签的传递路径主要是针对基于关注关系的标签传递，亲密度比较高的关注用户传递过来的标签权重值会比较高。标签是来自于用户的原创还是其转发的微博，权重值会有区别，一般来说原创的权重会高于转发权重。如果标签本身是一个非常常见的词，那么它用于刻画用户的兴趣的区分性是比较差的，相反如果是一个长尾词，则区分性较强。出于这样的考虑，越是长尾词，标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现，评价的是两者的关联性。关联性越高，则标签的权重值越高。综合上述的因素，一个标签对于特定用户的权重值可以大致表示为：标签权重
= (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

3、时效性：（时间衰减函数）
随着时间的变化，用户的兴趣会发生转移，时间越久远，标签的权重应该相应的下降，距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑，一般会在标签权重值上叠加一个时间衰减函数，这个时间衰减函数被设计成如图3所示的指数衰减的形式，通过定义衰减幅度和半衰期，调节衰减的程度，体现不同的时效性。

此外，针对用户的兴趣，还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签，并计算标签的权重。短期兴趣更新周期会较长期兴趣更短，兴趣更集中，但是能够比较及时地反应用户兴趣的变化。
4、从兴趣到能力

然而，用户具有某方面的兴趣，只代表了他愿意接受这方面的信息，并不能代表他具有产生相关内容的能力。因此，在挖掘了用户兴趣标签的基础上，还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。
微博中的关注关系可以认为是一种认证，具有相同兴趣的用户之间的关注则有可能是兴趣相投（当然也可能不是，但毕竟有一定的指导性），那么将具有相同兴趣标签的用户提出来，通过关注关系构成一个图，被认证得最多的用户（被关注边指向得最多）被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。

电商用户兴趣标签

1、标签来源

电商网站的用户标签主要来源于用户浏览过的网页内容；比如：用户A，昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。则用户标签为：红酒，长城；

2、标签权重：

电商网站的用户标签主要受以下几方面的因素影响：

（1）时间因素：时间包括两方面信息：时间戳+时间长度，时间戳表征了用户的行为时间点，时间长度表征了用户在某一页面的停留时间。通过时间因素可以确定权重计算的时间衰减因子（时间戳），比如该用户行为发生在昨天则衰减因子为0.95。

（2）地点，即用户接触点（touch point）：包含两层信息（网址+内容）。

网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面，网址决定了网址权重因子。

内容：每个url链接中的内容。可以是单品的相关信息，比如：类别、品牌、描述、属性、网址信息等，通过页面内容可以确定用户的标签，如红酒、长城、干红等。

例如：用户在京东商城浏览红酒信息和在品尚红酒网浏览红酒信息，表现出对红酒的喜好程度不同，所以网址权重因子也不同。

（3）用户行为：对于电商网站用户有以下典型行为：添加购物车、搜索、评论、购买、收藏等，对于不同的用户行为，权重不同。

综合上述分析，用户画像的数据模型，可以概括为下面的公式：用户标识
+ 时间 + 行为类型 + 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

电商用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：

标签权重=衰减因子×行为权重×网址子权重

如：用户A，昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

标签：红酒，长城

时间：因为是昨天的行为，假设衰减因子为：r=0.95

行为类型：浏览行为记为权重1

地点：品尚红酒单品页的网址子权重记为 0.9（相比京东红酒单品页的0.7）

假设用户对红酒出于真的喜欢，才会去专业的红酒网选购，而不再综合商城选购。

则用户偏好标签是：红酒，权重是0.95*0.7 * 1=0.665，即，用户Ａ：红酒 0.665、长城 0.665。

以上并未涉及具体算法，更多的是阐述了一种分析思想，在计划构建用户画像时，能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解，接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减，决定了权重模型是关键，权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商，但其实，可以根据产品的不同，重新定义接触点。比如影视产品，我看了一部电影《英雄本色》，可能产生的标签是：周润发 0.6、枪战
0.5、港台 0.3。

最后，接触点本身并不一定有内容，也可以泛化理解为某种阈值，某个行为超过多少次，达到多长时间等。比如游戏产品，典型接触点可能会是，关键任务，关键指数（分数）等等。如，积分超过1万分，则标记为钻石级用户。钻石用户
1.0。

参考文章地址：http://blog.csdn.net/youngspy23/article/details/51093498

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航