您的位置:首页 > 编程语言 > Python开发

Python学习笔记:汉字字频统计

2017-07-27 15:26 543 查看
文本为UTF8编码,未经特殊处理

dict={}
fd=open("/home/daya/Downloads/尘缘.txt",'r')

for row in fd: #按行处理
row=row.strip()
if len(row)==0: #跳过空行
continue
for char in row: #行中的每一个字符
if char in [' ',',','。','”','“','※','…','?',':','!']:
continue
if char not in dict: #为首次出现的字创建key
dict[char]=0
dict[char]+=1

#字典按值排序,返回值为元组列表
dict=sorted(dict.items(),key=lambda item:item[1],reverse=True)
for x in range(0,21,1):
print(dict[x][0],dict[x][1]) #类似C中二维数组

fd.close()

fd=open("/home/daya/Downloads/count.txt",'w')
for item in dict:
fd.write(item[0]+','+str(item[1])+'\n')
fd.close()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python