统计文本中单词使用频率
2012-03-02 15:32
316 查看
#!/bin/bash #统计单词的频率 if [ $# -lt 1 ]; then echo "usage : $0 filename" fi filename=$1 cp $filename $1_backup if [ ! -f $filename ]; then echo "$filename is not a file" fi temp=$1_temp cat $filename | tr '[:punct:]' ' '\ | tr ' ' '\n' | tr 'A-Z' 'a-z' > $temp # 先把文本的中的标点全部替代成空格,然后把每个单词单独一行,全都转化成小写,方便后面的处理,输出到filename_temp文件中 sed -i -E -e '/^$/d' -e '/^[0-9]+/d' $temp # 把filename_temp文件中的空行和字母开头的行删除,用-i写入文件 sort $temp | uniq -c | sort -rn > $1_result.txt #先将sort按照字母排序,uniq对于连续的相同的行只输出一次,sort -r 逆序排序,默认是从小到大,输出结果到result.txt中 rm $temp # 删除临时文件
相关文章推荐
- 如何使用linux命令统计文本中某个单词的出现频率
- Hadoop:使用原生python编写MapReduce来统计文本文件中所有单词出现的频率功能
- 统计文本中各单词出现的频率(JavaWeb)
- 一个简单的程序,统计文本文档中的单词和汉字数,逆序排列(出现频率高的排在最前面)。python实现。
- linux bash shell 统计一个文本中 单词 频率的 脚本详解
- 使用hadoop统计多个文本中每个单词数目
- linux bash shell 统计一个文本中 单词 频率的 脚本详解
- Python开发的单词频率统计工具wordsworth使用方法
- 基于bf算法统计文本中某个单词出现的频率
- 统计文本中英文单词的出现频率
- 软件工程作业------分析文本文档,统计出现频率最多的十个单词
- 统计一个英文文本的单词出现的频率(有标点符号的)
- 采用二叉搜索树来统计文本中单词出现的频率
- 关于统计ascii码文本中英语单词的出现频率的c++实现
- Linux下统计文本文件中前n个出现频率最高的单词
- [python]使用Counter统计文章中出现频率最高的单词
- 统计文本中每个单词出现的频率(附C++完整程序)
- 统计文本文件中单词出现频率(用java集合框架编写)
- 用hash表统计文本文件中每个单词出现的频率