【原创】python MRJob -…
2017-03-20 14:47
281 查看
安装方式:easy_install mrjob使用方法:
#sys.argv.append("data/2")
#TestMrJob.run()[/code]
[code]#!-*- coding: utf8 -*-
"这段代码是使用"
import re import sys import jieba from mrjob.job import MRJob word_re = re.compile(u"[\u4E00-\u9FA5]+") class TestMrJob(MRJob): def mapper(self, _, line):
"统计每行" for word in word_re.findall(line.decode("utf8")): for new_word in jieba.cut(word): yield new_word.lower(), 1 def reducer(self, word, counts):
"统计结果" yield word, sum(counts) if __name__ == '__main__':
#此处注意:data = TestMrJob.run()
#sys.argv.append("data/2")
#TestMrJob.run()[/code]
奇怪的是,tmp文件中的结果是这样子的....
碉堡了...-
相关文章推荐
- 【原创】python 文件操作-路径
- 【原创】python assert 断言
- 【原创】 linux-python …
- 【原创】 linux-python …
- 【原创】 python django…
- 【原创】python encoding中文编码
- 【原创】python enumerate遍历数组
- 【原创】mysql-python安装 dj…
- 【原创】 linux-python …
- 【原创】python spider …
- 【原创】python处理 面试题:回文…
- 【原创】python sys.stderr
- 【原创】python lambda表达式
- 【原创】 linux-python …
- 【原创】python 使用系统模块…
- 【原创】python 全局变量和局…
- 【原创】python map
- 【原创】python zip 函数
- 【原创】 python django…
- 【原创】 linux-python …