对文章单词的字母个数的计算
2017-07-16 15:02
190 查看
首先是先把每篇文章里的单词用正则表达式切分出来,然后放进一个list里面,然后再将这个list里面的元素一一遍历,每次遍历后的结果都是用正则对这个单词进行切分,将得到的结果就是用另一个list保存起来,最后求这个list的长度就是每个单词的字母长度了。
具体的代码如下:
具体的代码如下:
# -*-coding:utf-8 -*- import nltk # nltk.download() import sys import numpy import re import os from scipy.stats import pearsonr reload(sys) sys.setdefaultencoding('utf8') n = 0 while n < 5: n += 1 url = '/home/zheng/firstproject2/essay/' + str(n) file_name = os.listdir(url) print str(n) + '分下文章' number = 0 for single_file in file_name: number += 1 mean=0 SD=0 with open(url + '/' + single_file, 'r') as essay: content = essay.read() essay_list=re.findall('([A-Za-z\']+)',content) for word in essay_list: letterword_list=re.findall('([A-Za-z])',word) letterword_num=len(letterword_list) mean +=letterword_num print '第' + str(number) + '篇文章的单词字母数:'+str(mean) print '第' + str(number) + '篇文章的单词字母平均数:'+str(mean*1.0/len(essay_list)) for word in essay_list: letterword_list=re.findall('([A-Za-z])',word) letterword_num=len(letterword_list) SD+=(letterword_num-mean*1.0/len(essay_list))*(letterword_num-mean*1.0/len(essay_list)) SD=SD*1.0/len(essay_list) print '第' + str(number) + '篇文章的单词字母方差数:'+str(SD) print '第' + str(number) + '篇文章的单词字母标准数:'+str(SD**0.5)
相关文章推荐
- Python每日一练(1):计算文件夹内各个文章中出现次数最多的单词
- Count words and letters-计算用户输入一行文本中的单词数和每个字母出现次数
- 用户从控制台输入文章、计算文章中单词个数并存入文件中
- 计算一篇文章中英文单词的个数
- 计算字符串中的单词数. 单词:由空格分开的连续字母数字串。
- 计算字符串中的单词数(单词:由空格分开的连续字母数字串)
- 一种将英文文章字符串每个单词首字母转成大写字母的方法
- 计算一篇文章中英文单词的个数
- c语言小案例:获取文章中单词总数及含有1个字母到10个字母的单词的数量
- 【算法】计算一篇文章的单词数(C、Java语言实现)
- c语言计算给定句子中各个单词的字母个数
- Instr()函数的使用--计算字符串中出现某个字母或单词的个数
- 利用Hadoop运行第一个程序,计算文章中不同单词数量
- c语言实现几种情况下字母和单词的计算
- 字母符号计算一条英文句子中单词个数
- 利用awk计算文件的单词数量及排序
- 编程在一个已知的字符串中查找最长单词,假定字符串中只含字母和空格,用空格来分隔单词。
- 正则将每个单词开头字母转换为大写
- 字符串的复制,长度计算,单词反序输出
- 对字符串的操作 记录字符串中单词的个数 然后把单词的第一个字母变成大写的