您的位置:首页 > 编程语言 > Java开发

统计文章单词[JAVA实现]-经典笔试题

2016-06-20 00:00 555 查看
题目:统计文章中单词的个数,或出现频率
思路:先读文件到StringBuffer中,再使用正则表达式,分割成str[],在进行统计(使用map)。

package demo.subject;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.Map.Entry;

/** * 统计文章单词数 * 原理:使用正则表达式,分割成str[],在进行统计 * @author Ant * */
public class WordCounter {

/** * 统计单词出现频率 * @param str * @return */
public Map<String,Integer> count(StringBuffer str){
Map<String, Integer> map = new HashMap<>();
String s[] = str.toString().split("[^a-zA-Z]");//用String自带的split,
// Pattern p = Pattern.compile("[^a-zA-Z]");//或者用Pattern类
// String s[] = p.split(str);

//统计单词个数
for(int i =0 ; i < s.length; i++){
if(s[i]!="" && map.get(s[i])==null){
map.put(s[i], 1);
}else{
int n = map.get(s[i])+1;
map.put(s[i], n);
}
}
return map;
}

public static void main(String[] args) {
StringBuffer buffer = new StringBuffer();
//读文件,或者直接模拟字符串
try {
BufferedReader br = new BufferedReader(
new InputStreamReader(
new FileInputStream(
new File("E://fatal.log"))));
String temp = null;
while((temp=br.readLine())!=null){
buffer.append(temp);
}
br.close();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}

// StringBuffer str= new StringBuffer("I am Geng.X.y,she is my girlfriend.Lowood?what is that?X");
WordCounter wc = new WordCounter();
Map<String,Integer> map = wc.count(buffer);//统计

//输出
for(Entry<String, Integer> entry : map.entrySet()){
System.out.println("Word:"+entry.getKey() +" value:"+entry.getValue());
}

}

}

/=================================/
最后附上 正则表达式的基础知识,方便以后翻查
(资料来源于:http://blog.csdn.net/kdnuggets/article/details/2526588 感谢)
/=================================/

// 反斜杠
/t 间隔 (‘/u0009’)
/n 换行 (‘/u000A’)
/r 回车 (‘/u000D’)
/d 数字 等价于[0-9]
/D 非数字 等价于[^0-9]
/s 空白符号 [/t/n/x0B/f/r]
/S 非空白符号 [^/t/n/x0B/f/r]
/w 单独字符 [a-zA-Z_0-9]
/W 非单独字符 [^a-zA-Z_0-9]
/f 换页符
/e Escape
/b 一个单词的边界
/B 一个非单词的边界
/G 前一个匹配的结束

^为限制开头

3ff8
^java 条件限制为以Java为开头字符
为限制结尾java 条件限制为以java为结尾字符
. 条件限制除/n以外任意一个单独字符
java.. 条件限制为java后除换行外任意两个字符

加入特定限制条件「[]」
[a-z] 条件限制在小写a to z范围中一个字符
[A-Z] 条件限制在大写A to Z范围中一个字符
[a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
[0-9] 条件限制在小写0 to 9范围中一个字符
[0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
[0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)

[]中加入^后加再次限制条件「[^]」
[^a-z] 条件限制在非小写a to z范围中一个字符
[^A-Z] 条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9] 条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)

在限制条件为特定字符出现0次以上时,可以使用「*」
J* 0个以上J
.* 0个以上任意字符
J.*D J与D之间0个以上任意字符

在限制条件为特定字符出现1次以上时,可以使用「+」
J+ 1个以上J
.+ 1个以上任意字符
J.+D J与D之间1个以上任意字符

在限制条件为特定字符出现有0或1次以上时,可以使用「?」
JA? J或者JA出现

限制为连续出现指定次数字符「{a}」
J{2} JJ
J{3} JJJ
文字a个以上,并且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J并存)
文字个以上,b个以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
两者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中规定一个组合类型
比如,我查询index间的数据,可写作
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: