您的位置:首页 > 大数据

大数据挖掘:手把手教你分析头条小程序文章数据

2017-11-25 12:02 323 查看

大数据挖掘:手把手教你分析头条小程序文章数据

本次分析思路:

爬虫爬取数据

词频统计

绘制文字云

49517 字的文章中提取以下关键字:



从上图的结果中发现,经分割后的词中有许多无意义的词,如“可以”,“使用”,“这个”,“我们”等,这些词是需要剔除的。



从上图中显示,一些无意义的词已经被剔除,下面就使用比较干净的词绘制文字云,以大致查看分词效果。

通过java使用工具echarts绘制的个性化文字云:



发现“微信小程序”这个词非常明显,但到底是什么微信小程序呢?下面来看一看都是哪些句子包含不错这样的字眼。

含有“微信小程序”字眼的评论有3378条,这就需要人为干涉,将这些“微信小程序”进行简化并组成词典。

这是一个非常繁工的过程,需要耐心的查看这些句子中都是怎么表达的情感的。

经过约3个小时的人为选词(不断反复查看),结果分析后,具体如下:

结论:

从文字云的返回结果可知:

1) 微信小程序是一个触手可及,用完即走的应用

2) 用户使用方便,同时公众号的流量倒流到小程序

3) 出现用户量井喷

4) 小程序拥有社交功能,营销功能

5) 当然也有一些负面评价,如用户体验上小程序无法媲美原生app等

词穷了,无法装13下去了,请各位大牛继续。。。

本篇分析的是小程序目前的状况,运用的是java分词等技术,并没有运用大数据挖掘的工具等,

因此分析结果可能不被大家接受,或者结果是片面的,仅用做学习参考。

词云前端代码:

<%@ page language="java" contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8"%>
<%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c"%>
<%@ taglib uri="http://java.sun.com/jsp/jstl/fmt" prefix="fmt"%>
<%
String path = request.getContextPath();
int port = request.getServerPort();
String basePath =null;
String baseImgPath =null;
if(port==80){
basePath = request.getScheme()+"://"+request.getServerName()+path;
baseImgPath = request.getScheme()+"://"+request.getServerName();
}<
cb95
span class="hljs-keyword">else{
basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path;
baseImgPath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort();
}
request.setAttribute("basePath",basePath);
request.setAttribute("baseImgPath",baseImgPath);
%>
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Document</title>
<script src="${basePath}/resource/test/js/jquery.min.js"></script>
<script src="${basePath}/resource/test/js/echarts.js"></script>
<script src="${basePath}/resource/test/js/worldcloud.js"></script>
</head>
<body>
<div id="main" style="width:600px;height:400px;"></div>
<script>
$(function(){
var myData = '${myData}';
var obj = eval(myData);
echartsCloud(obj);//初始化echarts图
})
function echartsCloud(myData){
// 基于准备好的dom,初始化echarts实例
var myChart = echarts.init(document.getElementById('main'));

myChart.setOption({
title: {
text: '小程序文章单词云图'
},
tooltip: {},
series: [{
type : 'wordCloud',  //类型为字符云
shape:'smooth',  //平滑
gridSize : 2, //网格尺寸
size : ['80%','80%'],
//sizeRange : [ 50, 100 ],
rotationRange : [ 46, 80 ], //旋转范围
textStyle : {
normal : {
fontFamily:'sans-serif',
color : function() {
return 'rgb('
+ [ Math.round(Math.random() * 160),
Math.round(Math.random() * 160),
Math.round(Math.random() * 160) ]
.join(',') + ')';
}
},
emphasis : {
shadowBlur : 5,  //阴影距离
shadowColor : '#333'  //阴影颜色
}
},
//                data:[],
data:myData
/*  data:[{"name": "云图","value": "200"},
{"name": "是个啥","value": "156"},
{"name": "他啥都不是","value": "122"},
{"name": "就是他呆子","value": "119"},
{"name": "傻子和疯子","value": "108"},
{"name": "营养快线","value": "101"},
{"name": "哈哈哈到家","value": "96"},
{"name": "瑞士军刀","value": "84"},
{"name": "DW情侣对表","value": "58"},
{"name": "清风抽纸","value": "55"},
{"name": "OPPO R9S","value": "46"},
{"name": "这一刻更清晰","value": "28"},
{"name": "呵呵旧宫style","value": "27"},
{"name": "债券评级","value": "26"}],*/
}]
});
// 异步加载数据
/*  $.get('./cloud.json').done(function (data) {
// 填入数据
myChart.setOption({
series: [{
data: data.dataCloud
}]
});
}); */
}

</script>
</body>
</html>


后端代码请参考:http://blog.csdn.net/sinat_15153911/article/details/78309243

文章中涉及到的数据链接:

链接:http://pan.baidu.com/s/1jHFiXDG 密码:mda9

艳辉广告:

只需一秒大数据带你走上人生巅峰。join in QQ群 : 494808400 。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: