我们文本分析了贾跃亭2017年全部公开信,发现他近期喜欢用“责任”“致歉”
2018-01-05 13:17
302 查看
当贾跃亭发声时,他在说些什么?他说的话网民听进去了吗?
2018年工作日第一天,贾跃亭凭借一封对《北京证监局责令贾跃亭回国履责通告》的回应函再次占据了各大科技、商业网站的头条。在回应函中,他提到美国FF公司融资已经取得了重大进展,并表示,“针对债务问题,我会尽责到底”。
近半年,在乐视危机下,贾跃亭频频发声,而“债务”“责任”这些词似乎不绝入耳。尽管感官如此,文摘菌还是想用文本分析统计一下,在2016-2017年,贾跃亭的多次发言中,到底他最爱说哪些词,以及公众对他的看法有到底如何。
作者统计了2016-2017年贾跃亭公开发布的公开致辞,总共7次(次数太少我们就不用爬虫直接手动找了),包括新品发布、公司致辞和致用户信等,共15k字左右;同时,我们还搜集了全网“贾跃亭”相关舆情百万余条超过2个G的数据,以期了解公众对其看法。
我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。
简而言之,我们想知道,2017年发了这么多公开信的贾跃亭,他说的话网民们听进去了吗?
当然,整个分析过程本身也颇有趣,后台回复“贾跃亭”获取本次文本分析的所有数据和代码包哟~
关键词云图:当贾跃亭发声时,他在说些什么?
首先,文摘菌想看看,在这两年中,贾跃亭在公开发言中最喜欢使用的词语是什么。
尽管贾跃亭的公开信字数略少,从文本分析中,文摘菌还是得出了一些有趣的信息。
文本分析小贴士:对于关键词提取,词频统计是最常用的方法,而其文摘菌没有采取词频统计的方法,因为词频统计的逻辑是:一个词在文章中出现的次数越多,它就越重要。因而,笔者采用的是TF-IDF(term
frequency–inverse document frequency)的关键词提取方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。
作者利用jieba从语料中抽取出关键词,并选取TOP500关键词来绘制关键词云图。
原文链接
2018年工作日第一天,贾跃亭凭借一封对《北京证监局责令贾跃亭回国履责通告》的回应函再次占据了各大科技、商业网站的头条。在回应函中,他提到美国FF公司融资已经取得了重大进展,并表示,“针对债务问题,我会尽责到底”。
近半年,在乐视危机下,贾跃亭频频发声,而“债务”“责任”这些词似乎不绝入耳。尽管感官如此,文摘菌还是想用文本分析统计一下,在2016-2017年,贾跃亭的多次发言中,到底他最爱说哪些词,以及公众对他的看法有到底如何。
作者统计了2016-2017年贾跃亭公开发布的公开致辞,总共7次(次数太少我们就不用爬虫直接手动找了),包括新品发布、公司致辞和致用户信等,共15k字左右;同时,我们还搜集了全网“贾跃亭”相关舆情百万余条超过2个G的数据,以期了解公众对其看法。
我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。
简而言之,我们想知道,2017年发了这么多公开信的贾跃亭,他说的话网民们听进去了吗?
当然,整个分析过程本身也颇有趣,后台回复“贾跃亭”获取本次文本分析的所有数据和代码包哟~
关键词云图:当贾跃亭发声时,他在说些什么?
首先,文摘菌想看看,在这两年中,贾跃亭在公开发言中最喜欢使用的词语是什么。
尽管贾跃亭的公开信字数略少,从文本分析中,文摘菌还是得出了一些有趣的信息。
文本分析小贴士:对于关键词提取,词频统计是最常用的方法,而其文摘菌没有采取词频统计的方法,因为词频统计的逻辑是:一个词在文章中出现的次数越多,它就越重要。因而,笔者采用的是TF-IDF(term
frequency–inverse document frequency)的关键词提取方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。
作者利用jieba从语料中抽取出关键词,并选取TOP500关键词来绘制关键词云图。
原文链接
相关文章推荐
- 我们文本分析了贾跃亭2017年全部公开信,发现他近期喜欢用“责任”“致歉”
- 上千篇文章肯定不会全部出现在考试的“阅读理解“中,我们依然要学习千年不变的语文课本,其实就是在学习一种”分析的思维“,一种”举一反三“的能力。
- 我们分析了54069个楼盘后,发现了中国楼盘取名的套路
- 经典:终于发现我们错怪了美国!转帖 全部
- 在分析了AI顶会上的6163篇论文后,我们能发现怎样的发展趋势与变化……
- 分析一天1000万北京地铁客流,我们发现...
- 分析一天1000万北京地铁客流,我们发现...
- [我们是这样理解语言的-1]文本分析平台
- MSNP10协议分析 05.文本信息 [by progsoft]
- 探索Python数据分析(一):NLTK库和文本处理
- 文本分析的三种典型设计模式
- 文本分析的三种典型设计模式
- 社会网络中社团发现及网络演化分析
- 分析中国当今社会,草根的出路在哪里? --> 需要我们自己去拼搏去奋斗!
- 上传ipa出现:生成的 API 分析文件太大。我们无法在交付前验证您的 API 使用信息
- 用YSlow分析我们页面
- awk--文本分析的ak47
- 文本分类之情感分析– 去除低信息量的特征