您的位置:首页 > 大数据

大数据分析--用户画像

2016-04-08 11:51 1816 查看
从去年还在北京工作的时候就开始不断的听说,用户画像、用户画像,而且,有个项目,项目领导美其名曰:用户画像,这么长时间,也没有真正的思考过什么叫用户画像。前几天看到一篇关于这方面的文章,决定整理消化,希望通过这种方式可以成为我自己的知识。

一、什么是用户画像(user profile)

用户画像,简而言之就是对用户信息的标签化,如图1所示。



二、为什么需要用户画像

用户画像的核心工作是为用户打标签,一方面,标签化是对用户信息的结构化处理,方便计算机识别和处理,方便进行分类统计(男女比例)、数据挖掘(利用关联规则计算喜欢红酒和喜欢运动品牌的关系)、推荐引擎、广告精准投放等;另一方面,标签本身具有准确性和非二义性,有利于人工整理、统计、分析;


三、如何构建用户画像

标签:人为规定的高度精炼的标识,如年龄段标签:25-35岁,地域标签:北京,标签本身无需进行文本预处理工作;

用户信息一般可以分为两类:静态信息和动态信息。
静态信息:例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。
动态信息:用户不断变化的行为和兴趣信息,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。
以下从两个行业构建用户的动态标签:
微博用户兴趣标签:
1、标签来源:
用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。



2、标签权重:

在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重
= (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

3、时效性:(时间衰减函数)
随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。

此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。
4、从兴趣到能力

然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。
微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。



电商用户兴趣标签

1、标签来源

电商网站的用户标签主要来源于用户浏览过的网页内容;比如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。则用户标签为:红酒,长城;

2、标签权重:

电商网站的用户标签主要受以下几方面的因素影响:

(1)时间因素:时间包括两方面信息:时间戳+时间长度,时间戳表征了用户的行为时间点,时间长度表征了用户在某一页面的停留时间。通过时间因素可以确定权重计算的时间衰减因子(时间戳),比如该用户行为发生在昨天则衰减因子为0.95。

(2)地点,即用户接触点(touch point):包含两层信息(网址+内容)。

网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面,网址决定了网址权重因子。

内容:每个url链接中的内容。可以是单品的相关信息,比如:类别、品牌、描述、属性、网址信息等,通过页面内容可以确定用户的标签,如红酒、长城、干红等。

例如:用户在京东商城浏览红酒信息和在品尚红酒网浏览红酒信息,表现出对红酒的喜好程度不同,所以网址权重因子也不同。

(3)用户行为:对于电商网站用户有以下典型行为:添加购物车、搜索、评论、购买、收藏等,对于不同的用户行为,权重不同。

综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识
+ 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

电商用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:

标签权重=衰减因子×行为权重×网址子权重

如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

标签:红酒,长城

时间:因为是昨天的行为,假设衰减因子为:r=0.95

行为类型:浏览行为记为权重1

地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)

假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。

则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。

以上并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战
0.5、港台 0.3。

最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户
1.0。

参考文章地址:http://blog.csdn.net/youngspy23/article/details/51093498
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: