大数据挖掘:手把手教你分析头条小程序文章数据
2017-11-25 12:02
323 查看
大数据挖掘:手把手教你分析头条小程序文章数据
本次分析思路:爬虫爬取数据
词频统计
绘制文字云
从 49517 字的文章中提取以下关键字:
从上图的结果中发现,经分割后的词中有许多无意义的词,如“可以”,“使用”,“这个”,“我们”等,这些词是需要剔除的。
从上图中显示,一些无意义的词已经被剔除,下面就使用比较干净的词绘制文字云,以大致查看分词效果。
通过java使用工具echarts绘制的个性化文字云:
发现“微信小程序”这个词非常明显,但到底是什么微信小程序呢?下面来看一看都是哪些句子包含不错这样的字眼。
含有“微信小程序”字眼的评论有3378条,这就需要人为干涉,将这些“微信小程序”进行简化并组成词典。
这是一个非常繁工的过程,需要耐心的查看这些句子中都是怎么表达的情感的。
经过约3个小时的人为选词(不断反复查看),结果分析后,具体如下:
结论:
从文字云的返回结果可知:
1) 微信小程序是一个触手可及,用完即走的应用
2) 用户使用方便,同时公众号的流量倒流到小程序
3) 出现用户量井喷
4) 小程序拥有社交功能,营销功能
5) 当然也有一些负面评价,如用户体验上小程序无法媲美原生app等
词穷了,无法装13下去了,请各位大牛继续。。。
本篇分析的是小程序目前的状况,运用的是java分词等技术,并没有运用大数据挖掘的工具等,
因此分析结果可能不被大家接受,或者结果是片面的,仅用做学习参考。
词云前端代码:
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c"%> <%@ taglib uri="http://java.sun.com/jsp/jstl/fmt" prefix="fmt"%> <% String path = request.getContextPath(); int port = request.getServerPort(); String basePath =null; String baseImgPath =null; if(port==80){ basePath = request.getScheme()+"://"+request.getServerName()+path; baseImgPath = request.getScheme()+"://"+request.getServerName(); }< cb95 span class="hljs-keyword">else{ basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path; baseImgPath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort(); } request.setAttribute("basePath",basePath); request.setAttribute("baseImgPath",baseImgPath); %> <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>Document</title> <script src="${basePath}/resource/test/js/jquery.min.js"></script> <script src="${basePath}/resource/test/js/echarts.js"></script> <script src="${basePath}/resource/test/js/worldcloud.js"></script> </head> <body> <div id="main" style="width:600px;height:400px;"></div> <script> $(function(){ var myData = '${myData}'; var obj = eval(myData); echartsCloud(obj);//初始化echarts图 }) function echartsCloud(myData){ // 基于准备好的dom,初始化echarts实例 var myChart = echarts.init(document.getElementById('main')); myChart.setOption({ title: { text: '小程序文章单词云图' }, tooltip: {}, series: [{ type : 'wordCloud', //类型为字符云 shape:'smooth', //平滑 gridSize : 2, //网格尺寸 size : ['80%','80%'], //sizeRange : [ 50, 100 ], rotationRange : [ 46, 80 ], //旋转范围 textStyle : { normal : { fontFamily:'sans-serif', color : function() { return 'rgb(' + [ Math.round(Math.random() * 160), Math.round(Math.random() * 160), Math.round(Math.random() * 160) ] .join(',') + ')'; } }, emphasis : { shadowBlur : 5, //阴影距离 shadowColor : '#333' //阴影颜色 } }, // data:[], data:myData /* data:[{"name": "云图","value": "200"}, {"name": "是个啥","value": "156"}, {"name": "他啥都不是","value": "122"}, {"name": "就是他呆子","value": "119"}, {"name": "傻子和疯子","value": "108"}, {"name": "营养快线","value": "101"}, {"name": "哈哈哈到家","value": "96"}, {"name": "瑞士军刀","value": "84"}, {"name": "DW情侣对表","value": "58"}, {"name": "清风抽纸","value": "55"}, {"name": "OPPO R9S","value": "46"}, {"name": "这一刻更清晰","value": "28"}, {"name": "呵呵旧宫style","value": "27"}, {"name": "债券评级","value": "26"}],*/ }] }); // 异步加载数据 /* $.get('./cloud.json').done(function (data) { // 填入数据 myChart.setOption({ series: [{ data: data.dataCloud }] }); }); */ } </script> </body> </html>
后端代码请参考:http://blog.csdn.net/sinat_15153911/article/details/78309243
文章中涉及到的数据链接:
链接:http://pan.baidu.com/s/1jHFiXDG 密码:mda9
艳辉广告:
只需一秒大数据带你走上人生巅峰。join in QQ群 : 494808400 。
相关文章推荐
- 转载文章:Microsoft 将僵尸网络威胁智能分析程序引入云中以提供近实时数据
- 转载文章:Microsoft 将僵尸网络威胁智能分析程序引入云中以提供近实时数据
- 转载文章:Microsoft 将僵尸网络威胁智能分析程序引入云中以提供近实时数据
- 转载文章:Microsoft 将僵尸网络威胁智能分析程序引入云中以提供近实时数据
- 以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程
- 文本挖掘:手把手教你分析携程网评论数据
- python数据挖掘与分析实战 第5章 一处错误
- 姚编辑看教材系列文章之二 数据挖掘与机器学习
- 04数据挖掘原理-数据分析 数据描述
- 内存区划分;内存分配;堆、栈概念分析;动态内存管理数据结构及程序样例;核心态与用户态
- weka数据挖掘分析
- 数据挖掘:实用案例分析
- 数据挖掘工具R软件与Weka的比较分析
- 【python数据挖掘课程】十八.线性回归及多项式回归分析四个案例分享
- 【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。
- 100+篇大数据、数据分析、数据挖掘电子书免费下载!
- Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
- Python数据挖掘课程 二.Kmeans聚类数据分析及Anaconda介绍
- python数据挖掘课程 十三.WordCloud词云配置过程及词频分析