Python从同一文件进行数据不落地的取高频处理
2014-03-12 14:35
846 查看
数据格式:(词,拼音,词频)
的 de
148709248
的 di 1193135
了 le 62873377
了 liao
3199200
是 shi 62432861
一 yi 58994539
不 bu 57479625
不 fou 1136895
将文件中多音字的高频词汇提取并返回
的 de
148709248
的 di 1193135
了 le 62873377
了 liao
3199200
是 shi 62432861
一 yi 58994539
不 bu 57479625
不 fou 1136895
将文件中多音字的高频词汇提取并返回
def chose_high_freq_word(): '''key:word,value:[pinyin](high frequence)''' filepath = os.path.dirname(os.path.abspath(__file__)) filename = os.path.join(filepath,"dict.txt") if not os.path.isfile(filename): raise ValueError("No such file:{}".format(filename)) all_word_pinyin_freq_dic = {} multi_word_pinyin_freq_dic = {} with codecs.open(filename,encoding="utf-8") as f: for line in f.readlines(): if line.startswith(";"): pass else: splited_line = line.split("\t") if len(splited_line) is not 3: raise ValueError("splited lenth is not 3,in file HZout_NoTone.txt") word = splited_line[0] pinyin = splited_line[1] freq = splited_line[2].strip() check_multi = all_word_pinyin_freq_dic.get(word) if check_multi is not None: check_multi.append([pinyin,freq]) multi_word_pinyin_freq_dic[word] = check_multi all_word_pinyin_freq_dic[word] = check_multi else: all_word_pinyin_freq_dic[word] = [[pinyin,freq]] # print len(multi_word_pinyin_freq_dic) pattern = re.compile(r"\d") for word in multi_word_pinyin_freq_dic: # print word,multi_word_pinyin_freq_dic[word] multi_word_pinyin_freq_dic[word] = max(multi_word_pinyin_freq_dic[word],key=lambda x:int(x[1])) multi_word_pinyin_freq_dic[word] = [pattern.sub("",multi_word_pinyin_freq_dic[word][0])] # for word in multi_word_pinyin_freq_dic: # print word,multi_word_pinyin_freq_dic[word] return multi_word_pinyin_freq_dic
相关文章推荐
- HttpClient以json形式的参数调用http接口并对返回的json数据进行处理(可以带文件)
- zf-安徽桐城关于(资源中心-数据录入)上传文件后没有进行处理Excel文件的原因
- 【python图像处理】txt文件数据的读取与写入
- 使用Python递归对文件进行相关处理
- Abaqus-利用python处理有多个instances的odb文件,得到inp模型数据用于前处理
- 《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第14章 处理CSV文件和JSON数据】
- Python控制数据(留存及支付信息)按周进行跑批处理
- python的http代理,对请求的头文件中的json数据进行比对-------(2)
- python自动化测试中妙用python文件进行数据分离
- Python从阿里云Oss拉数据写入Hive表并进行相关处理
- python从文件中读数据并进行排序
- 【python】【opencv samples】【批处理】【Ubuntu】用Python对opencv samples进行批量生成可执行文件
- 文件备份-Python3对文件夹下所有文件进行压缩处理
- python爬取学校体育部的跑超数据并用Tkinter写出应用并进行封装生成exe文件
- 数据加载、存储与文件格式 利用Python进行数据分析 第6章
- 读取省市区文件,并对文件内的数据进行处理和存储
- Python 对两个文件中数据的处理
- Python-使用CSV模块进行文件处理
- Python笔记–IAR使用Python脚本实现自动对烧录文件进行处理
- python对图像中的人脸进行画框(人脸的位置数据记录在记事本文件中)