Python编程入门-第11章 案例研究:文本统计
2016-11-13 19:58
411 查看
第11章 案例研究:文本统计
计算并打印有关文本文件内容的统计数据:包含多少个字符、行和单词,以及出现最多的10个单词,并依此排列出。
练习:
1、修改函数printfilestats,使其也打印文件中不同单词总数。
2、修改函数printfilestats,使其也打印文件中单词平均长度。
3、罕用语是指文件中只出现过一次的单词,修改函数,打印罕用语总数。
4、一般文章里出现频率较高的都是如the、a、and这些功能词。可以创建一个排除词集合(stop_words),可以在其中设置单词。并在统计数据时,将该集合内的单词排除在外。
5、函数printfilestats将一个文件名作为输入,并且将整个文件读入字符串中,当文件非常大时,会占用大量内存资源。请编写一个新的函数,逐行读取输入文件。
计算并打印有关文本文件内容的统计数据:包含多少个字符、行和单词,以及出现最多的10个单词,并依此排列出。
#先定义一个规整文本字符的函数 def normalize(s): keep={'a','b','c','d','e','f','g','h','i','j','k','l', 'm','n','o','p','q','r','s','t','u','v','w','x', 'y','z',' ','-',"'"} result="" for c in s.lower(): if c in keep: result+=c return result #接受一个字符串s并生成一个字典,该字典的键为s中的单词,值为对应单词出现的次数 def make_freq_dict(s): s=normalize(s) words=s.split() d={} for w in words: if w in d: d[w]+=1 else: d[w]=1 return d def print_file_stats(fname): s=open(fname,'r').read() #在规整字符串前先统计字符数量 num_chars=len(s) #在规整字符串前先统计行数 num_lines=s.count('\n') d=make_freq_dict(s) #统计单词数量 num_words=sum(d[w] for w in d) #创建一个列表,元素为单词及对应出现次数组成的元组 lst=[(d[w],w) for w in d] lst.sort() lst.reverse() num_words0=len(normalize(s).split()) print("The file '%s' has: "% fname) print("%s characters"% num_chars) print("%s lines"% num_lines) print("%s words"% num_words) print("%s words"% num_words0) print("\nThe top 10 most frequent words are:") i=1 for count,word in lst[:10]: print("%2d. %2s %s"%(i,count,word)) i+=1 print_file_stats("3.txt")
练习:
1、修改函数printfilestats,使其也打印文件中不同单词总数。
#这里只需要通过求字典长度即可得知不同单词总数 print("There are %s different words."% len(d))
2、修改函数printfilestats,使其也打印文件中单词平均长度。
#计算单词平均长度 m=0 for w in d: m+=len(w)*d[w] average_length=m/num_words
3、罕用语是指文件中只出现过一次的单词,修改函数,打印罕用语总数。
#计算罕用语数量 n=0 for w in d: if d[w]==1: n+=1
4、一般文章里出现频率较高的都是如the、a、and这些功能词。可以创建一个排除词集合(stop_words),可以在其中设置单词。并在统计数据时,将该集合内的单词排除在外。
#建立一个排除词集合 stop_words={"the","a","i","of","is","in"} #接受一个字符串s并生成一个字典,该字典的键为s中的单词,并且不在排除集合中 #值为对应单词出现的次数 def make_freq_dict1(s): d0=make_freq_dict(s) d={} for w in d0: if w in stop_words: continue else: e={w:d0[w]} d.update(e) return d
5、函数printfilestats将一个文件名作为输入,并且将整个文件读入字符串中,当文件非常大时,会占用大量内存资源。请编写一个新的函数,逐行读取输入文件。
#先定义一个规整文本字符的函数 def normalize(s): keep={'a','b','c','d','e','f','g','h','i','j','k','l', 'm','n','o','p','q','r','s','t','u','v','w','x', 'y','z',' ','-',"'"} result="" for c in s.lower(): if c in keep: result+=c return result #采用逐行读取的方式统计 def print_file_stats(fname): f=open(fname,'r') #先定义并初始化统计数据 num_chars=0 num_words=0 num_lines=0 #逐行统计 for line in f: num_chars+=len(line) num_words+=len(normalize(line).split()) d=make_freq_dict(line,d) num_lines+=1 print("The file '%s' has: "% fname) print("%s characters"% num_chars) print("%s lines"% num_lines) print("%s words"% num_words) print_file_stats("3.txt")
相关文章推荐
- 模拟MapReduce编程的程序案例(用于统计文本中单词出现频率)
- Java案例:统计文本中所有整数之和
- C#统计文本单词个数2
- Python 3.6 利用NLTK 统计多个文本中的词频
- 文本挖掘技术案例视频
- linux常用命令----文本的统计
- 什么是V模型?使用SDLC和STLC学习案例研究
- 天博报表 Mantis系统Bug信息统计用户案例
- 统计文本中单词使用频率
- Hadoop hive sqoop zookeeper hbase生产环境日志统计应用案例(Sqoop篇)
- 搜索引擎case︱从搜索序列文本看高端商务车︱统计之都
- 统计文本中每个单词出现的频率(附C++完整程序)
- linux shell 文本排序与统计
- 《深入了解mybatis原则》 MyBatis架构设计和案例研究
- Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
- 贝叶斯案例3:文本关键词提取、新闻分类(python实现)
- Spark案例:Java版统计单词个数
- 网站日志统计案例分析与实现
- Servlet学习的两个案例之网站访问次数的统计