您的位置:首页 > 编程语言 > Python开发

【原创】python MRJob -…

2017-03-20 14:47 281 查看
安装方式:easy_install mrjob使用方法:
[code]#!-*- coding: utf8 -*-
"这段代码是使用"
import re
import sys
import jieba

from mrjob.job import MRJob

word_re = re.compile(u"[\u4E00-\u9FA5]+")

class TestMrJob(MRJob):
def mapper(self, _, line):
"统计每行"
for word in word_re.findall(line.decode("utf8")):
for new_word in jieba.cut(word):
yield new_word.lower(), 1

def reducer(self, word, counts):
"统计结果"
yield word, sum(counts)

if __name__ == '__main__':
#此处注意:
data = TestMrJob.run()
#sys.argv.append("data/2")
#TestMrJob.run()[/code]

奇怪的是,tmp文件中的结果是这样子的....
碉堡了...-
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: