您的位置:首页 > 其它

58同城二手市场个人信息的采集分析

2016-05-20 09:53 218 查看
最近研究了一下58同城,发现其页面改版之后,二手市场的卖家联系方式无法在网页版查看,只能通过app看到,而app上面传输的联系方式,是经过加密的。既然信息是加密的,恰说明信息是有价值的。例如,通过二手车信息模块,可以获得潜在购车客户,母婴童装的二手信息发布者,很有可能购买早教玩具等产品。进行精准营销,首先要获取优质的客户资源,我认为58同城,是很不错的客户资源,并且这种客户可以根据品类、位置进行精确的定位,真是非常有用。

这引起了我的兴趣,于是我就尝试进行破解。搜索全网,很少有破解相关的文章,包括淘宝卖家都很少有能够采集的。经过长时间的查找和论证,终于在Google上面找到一篇博客,成功的进行了解密。

58同城采用AES加密方式,获取到key是关键,这个key值大家不约而同的在博文中不透露【http://jkvast.iteye.com/blog/1175708】,也算是给58留点颜面,大家相安无事。现在淘宝上面也出售了58同城二手数据,看来破解已经完成了【https://item.taobao.com/item.htm?id=3964905663858同城数据批量抓取采集】。



最近从知乎上看到了关于爬虫采集的统计分析方法,引述一下:

【作者:weijiaw

链接:https://www.zhihu.com/question/36132174/answer/79566660

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。】

1. 基本统计学:每天微博有多少的趋势图(解析趋势,还原到历史事件);性别分布;地区分布(省份级别的分析,与GDP密切相关,但存在异常省份,可进一步分析为何这些省份对于京东白条的关注有异常,为进一步的营销和白条策略做参考);累计分布(总点赞数、总转发数、总评论数排名前20%,1%的博主占总博主的人数)

2. 情感分析。 对微博正文切词,然后进行情感判别。 我想了两个思路,第一个基于切词、情感词典和极性词的情感判别;第二个是基于机器学习的(与垃圾分类类似,进行情感分类;可以训练个分类器试试)。当时实现了第一个,判别了每条微博正文的情感value。然后与性别、省份做了交叉分析。。。比较性别和省份上对于京东白条情感值的差别。我认为,这个对于营销和产品设计是有意义的。发现特定群体对于某些产品的特定情感情况。 然后为进一步的营销或者产品设计作参考把。

3. 回归分析,以微博的点赞数、转发数、评论数为因变量(营销效果);以博主粉丝数、微博数、关注数、情感值和性别为自变量。做回归。主要是想得到营销方面的结论,大家都知道,微博营销各种存在,水军、大V等等。那么如果京东白条要找水军,应该找怎样的水军呢?

结论:低调的又富有正能量的男神;

低调是说发的微博比较少的人,营销效果好一些;男生好于女生;情感值高的微博好于情感值低得微博;粉丝多的优于粉丝少的。 这四条是统计学上显著的结论。

该分析以微博为例,其实应用到其他方面也是一样,分析的方向和思路都值得参考。

大数据时代,关键是让大数据变得容易读,可视分析是根本解决方案。目前,大家获取数据的方式除了导库之外,就是爬虫了,这是第一个门槛。过了这道坎,就是数据处理和分析,有人把统计也说成数据挖掘,真是太浅陋。经过复杂算法挖掘的信息,以一个直观,有规律的方式展示给用户,让用户能够读懂,读出其中的模式、规律,这才是处理大数据的不二途径。

经过数据收集,数据挖掘,数据可视分析,完整的数据处理链条,数据从分散的,杂乱无章的状态,变成有序的,归一化的,可读可理解的状态,无疑,这个过程提升了人类认知能力,是科技史上的又一次飞跃!

让我们欢呼着迎接和拥抱这个新的时代,成为先锋和中坚!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: