java统计文本中英文单词个数
2017-11-27 22:08
459 查看
package com.xasmall.Test; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.Set; import com.google.common.collect.HashMultiset; import com.google.common.collect.Multiset; /* * 处理文本数据,将英文单词分割,统计次数 * 使用正则表达式 * 首先除去所有非英文的字符,然后分割,最后使用guava multiset统计 */ public class MapDemo { public static void dealstring(String filename) throws IOException { FileReader fileReader=new FileReader(new File(filename)); BufferedReader bufferedReader=new BufferedReader(fileReader); StringBuffer stringBuffer=new StringBuffer(); String string=null; while((string=bufferedReader.readLine())!=null) { stringBuffer.append(string); } string=stringBuffer.toString(); string=string.replaceAll("[^a-zA-Z\\s+]", ""); String[] strings=string.split("[\\s+,\\.\n]"); Multiset<String> col=HashMultiset.create(); for(String string2:strings) { col.add(string2); } Set<String> minset=col.elementSet(); for(String temp:minset) { System.out.println(temp+"-->"+col.count(temp)); } bufferedReader.close(); fileReader.close(); } }
guava下载
密码:zkci
相关文章推荐
- Java编程:统计文本文件中单词出现频率
- 统计文本文件中单词出现频率,自己编写的Java小程序
- c++实现文本中英文单词和汉字字符的统计
- java统计文本中的不同的单词和重复的单词
- Java 文件统计:编写程序,统计英文文本文件中的字符数目和单词数目。程序运行时,输入要统计的文件的名称,程序处理后输出字符数目和单词数目
- 用JavaIO,正则表达式,HashMap统计一个文本单词数量
- 统计文本中英文单词的出现频率
- java进行文本单词的词频统计
- c++实现文本中英文单词和汉字字符的统计
- c++实现文本中英文单词和汉字字符的统计
- java统计短单词的个数
- (13) Hadoop Java 实现MapReduce HelloWord 单词统计 更新版 2
- 使用伸展树(SplayTree)统计单词频率的Java实现
- 在一个文本文件中的单词统计频率并打印前十个
- 关于统计ascii码文本中英语单词的出现频率的c++实现
- Python 练习册 4-统计文本文件中单词出现的个数
- JAVA-统计英文句子中出现次数最多的单词和出现的次数
- IOS菜鸟的所感所思(十一)——统计文本中单词出现的次数并按照次数高低排序
- JavaScript中模拟java的map键值统计一段英文中各个单词出现的次数
- 统计一个大小为30kb~300kb的文本中各单词出现的频率,并输出前十个单词和进行程序性能分析