您的位置:首页 > 其它

我们文本分析了贾跃亭2017年全部公开信,发现他近期喜欢用“责任”“致歉”

2018-01-05 13:17 302 查看
当贾跃亭发声时,他在说些什么?他说的话网民听进去了吗?

2018年工作日第一天,贾跃亭凭借一封对《北京证监局责令贾跃亭回国履责通告》的回应函再次占据了各大科技、商业网站的头条。在回应函中,他提到美国FF公司融资已经取得了重大进展,并表示,“针对债务问题,我会尽责到底”。

近半年,在乐视危机下,贾跃亭频频发声,而“债务”“责任”这些词似乎不绝入耳。尽管感官如此,文摘菌还是想用文本分析统计一下,在2016-2017年,贾跃亭的多次发言中,到底他最爱说哪些词,以及公众对他的看法有到底如何。

作者统计了2016-2017年贾跃亭公开发布的公开致辞,总共7次(次数太少我们就不用爬虫直接手动找了),包括新品发布、公司致辞和致用户信等,共15k字左右;同时,我们还搜集了全网“贾跃亭”相关舆情百万余条超过2个G的数据,以期了解公众对其看法。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

简而言之,我们想知道,2017年发了这么多公开信的贾跃亭,他说的话网民们听进去了吗?

当然,整个分析过程本身也颇有趣,后台回复“贾跃亭”获取本次文本分析的所有数据和代码包哟~

关键词云图:当贾跃亭发声时,他在说些什么?

首先,文摘菌想看看,在这两年中,贾跃亭在公开发言中最喜欢使用的词语是什么。

尽管贾跃亭的公开信字数略少,从文本分析中,文摘菌还是得出了一些有趣的信息。

文本分析小贴士:对于关键词提取,词频统计是最常用的方法,而其文摘菌没有采取词频统计的方法,因为词频统计的逻辑是:一个词在文章中出现的次数越多,它就越重要。因而,笔者采用的是TF-IDF(term
frequency–inverse document frequency)的关键词提取方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。

作者利用jieba从语料中抽取出关键词,并选取TOP500关键词来绘制关键词云图。

原文链接
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: