您的位置：首页 > 编程语言 > Python开发

使用python进行简单的分词与词云

2017-08-22 10:45 260 查看

目标：

导入一个文本文件
使用jieba对文本进行分词
使用wordcloud包绘制词云

环境：

Python 3.6.0 |Anaconda 4.3.1 (64-bit)

工具：

jupyter notebook
从网上下载了一篇小说《老九门》，以下对这篇小说进行分词，并绘制词云图。
分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba
词云使用wordcloud包，参考：https://github.com/amueller/word_cloud
这两个包都不是anaconda自带的，需要按官网的步骤安装。

In [1]:

import wordcloud as wc
import jieba
import matplotlib.pyplot as plt
from scipy.misc import imread

%matplotlib inline

plt.rc('figure', figsize=(15, 15))

首先读取文件，保存到一个字符串对象中。

In [2]:

all_text = open(file='老九门.txt', encoding='utf-8').read()

查看一下字符串的内容，发现其中有很多多余的字符：'\n'、'\u3000'。

In [3]:

all_text

Out[3]:

'\ufeff《盗墓笔记》中，一段与二月红有关的故事。\n《老九门》壹：二月红①\n丝帐许久没有换过了。\n\u3000\u3000她半夜入不了眠，睁开眼睛，便看到床边垂下的帐面，在月光下看着有一死暗淡。原来可是丝丝的带着光亮，好像最白的银拉出来的丝一般。\n\u3000\u3000果然再好的东西，也总是由好往坏了去。\n\u3000\u3000以往一过立秋，... ...<以下省略>

4000

在分词之前先把这些多余字符剔除掉。

In [4]:

all_text = all_text.replace('\n', '' )
all_text = all_text.replace('\u3000', '')

下面先尝试做一次分词，把所有分词用空格分开，输出看一下分词的结果：

In [6]:

seg_list = jieba.cut(all_text, cut_all=False)
words =' '
for seg in seg_list:
words = words +  seg + ' '
print(words)

Out[6]:

 《 盗墓 笔记 》 中 ， 一段 与 二月 红 有关 的 故事 。 《 老 九门 》 壹 ： 二月 红 ① 丝帐 许久 没有 换过 了 。 她 半夜 入 不了 眠 ， 睁开眼睛 ， 便 看到 床边 垂下 的 帐面 ， 在 月光 下 看着 有 一死 暗淡 。 原来 可是 丝丝 的 带 着 光亮 ， 好像 最白 的 银拉 出来 的 丝 一般 。 果然 再 好 的 东西 ， 也 总是 由 好 往坏 了 去 。 以往 一过 立秋 ， 她 就 会 亲自 拆 下 这块 帐头 ， 亲自 去 漂洗 ， 她 知道 这 东西 的 脾气 ， 得 小心 伺候 着 ， 一寸 一寸 地过 水 。 如今 不让 她 下床 ， 这 东西 没 人 伺候 了 ， 倒 也 显得 越来越 不值 当 被 这么 细心 对待 起来 。 也许 ， 下 一个 立秋 的 时候 ， 才 有人 敢动 这个 东西 ， 但 那个 人 ， 必然 不是 自己 了 。 中午 大夫 和 他 说 的 那些 话 ， 虽然 是 在 屋外 ， 但是 她 还是 听到 了 几分 ， 自己 的 病 ， 不 知道 还有 多少 日子 可熬 。 她 舒 了 口气 ， 胸中 的 那丝 痛楚 似乎 好 了 一些 。 多少 日

... ...<以下省略>

从分词结果里可以发现，有一些固定词语，例如“盗墓笔记”、“老九门”、“二月红”、“张大佛爷”、“齐铁嘴”等书名、人名被分开了。在这篇小说的环境下，这些才成为固定词语，而默认的分词策略根据通常的认识来分词的。
针对这个情况，jieba有一个“用户词典”的机制，把用户认为应该成为整词的，放到词典里，在分词的时遇到它们，就会当作一个整体。
在目录下新建一个文本文件dick.txt，输入以下词语：
老九门
二月红
盗墓笔记
张大佛爷
解九爷
解九
狗五
以下为jieba引入这个词典文件，再做一次分词：

In [7]:

jieba.load_userdict('dict.txt')
all_seg = jieba.cut(all_text, cut_all=False)
all_word =' '
for seg in all_seg:
all_word = all_word +  seg + ' '
print(all_word)

 《 盗墓笔记 》 中 ， 一段 与 二月红 有关 的 故事 。 《 老九门 》 壹 ： 二月红 ① 丝帐 许久 没有 换过 了 。 她 半夜 入 不了 眠 ， 睁开眼睛 ， 便 看到 床边 垂下 的 帐面 ， 在 月光 下 看着 有 一死 暗淡 。 原来 可是 丝丝 的 带 着 光亮 ， 好像 最白 的 银拉 出来 的 丝 一般 。 果然 再 好 的 东西 ， 也 总是 由 好 往坏 了 去 。 以往 一过 立秋 ， 她 就 会 亲自 拆 下 这块 帐头 ， 亲自 去 漂洗 ， 她 知道 这 东西 的 脾气 ， 得 小心 伺候 着 ， 一寸 一寸 地过 水 。 如今 不让 她 下床 ， 这 东西 没 人 伺候 了 ， 倒 也 显得 越来越 不值 当 被 这么 细心 对待 起来 。 也许 ， 下 一个 立秋 的 时候 ， 才 有人 敢动 这个 东西 ， 但 那个 人 ， 必然 不是 自己 了 。 中午 大夫 和 他 说 的 那些 话 ， 虽然 是 在 屋外 ， 但是 她 还是 听到 了 几分 ， 自己 的 病 ， 不 知道 还有 多少 日子 可熬 。 她 舒 了 口气 ， 胸中 的 那丝 痛楚 似乎 好 了 一些 。 多少 日子 了 ？

... ...<以下省略>

从这个结果来看，就不会再把人名、书名分开了。
以下开始制作词云。
制作词云，使用的是wordcloud包，由两个参数需要特别注意，一个是字体，一个是背景图片。字体好理解，就不解释了。背景图片，是词云显示的背景形状。这里选用了一个心形图案。

以下是词云制作过程：

In [8]:

# 引入字体
font=r"C:\WINDOWS\Fonts\simhei.ttf"

#读取背景图片,生成矩阵
color_mask = imread("love.jpg")

# 生成词云对象，设置参数
cloud = wc.WordCloud( font_path=font,#设置字体
background_color="black", #背景颜色
max_words=2000,# 词云显示的最大词数
mask=color_mask,#设置背景图片
max_font_size=100, #字体最大值
random_state=42)

# 绘制词云图
mywc = cloud.generate(all_word)

In [9]:

plt.imshow(mywc)

Out[9]:

<matplotlib.image.AxesImage at 0x1ecebf5e588>

In [10]:

# 把词云图保存到磁盘文件中
mywc.to_file('老九门wordcloud.png')

Out[10]:

<wordcloud.wordcloud.WordCloud at 0x1ece4b9bc88>

以上就是使用python进行分词，并绘制词云图的简单操作。对于jieba和wordcloud的更高级的使用方法，还需要进一步研究和学习。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python 大数据

相关文章推荐

新的分享

章节导航