您的位置:首页 > 其它

从一句话中提取地点信息

2016-01-07 00:00 751 查看
摘要: 爬虫采集中需要结构化数据,尝试从一句话中提取地点信息

采用字符串匹配的方法提取句子中包含的地点信息(省市)

直接看代码:

private static final String[][] LOCATION = { { "上海", "浦东" }, { "北京 ", "朝阳" }, { "浙江", "杭州", "宁波" }, { "天津" },
{ "四川", "成都" }, { "广东", "深圳", "广州" }, { "江苏", "南京", "苏州", "无锡" }, { "安徽", "合肥", "芜湖" }, { "湖北", "武汉" },
{ "湖南", "长沙" }, { "福建", "厦门" } };

public static String parseLocation(String str) {
String result = "other";
for (String[] l : LOCATION) {
if ("other".equals(result)) {
for (int i = 0; i < l.length; i++) {
if (str.matches(".*" + l[i] + ".*")) {
result = l[i];

}
}
}
}
return result;
}


单元测试:

@Test
public void psrsertest() {
System.out.println("Test begin");
List <String> strs=new ArrayList<String>(10);
strs.add("杭州市西苑");
strs.add("浙江省杭州市");
strs.add("广东省广州市");
strs.add("浙江杭州");
strs.add("上海市");
strs.add("北京上海");
strs.add("上海浦东区");
strs.add("上海南京路");
strs.add("安徽阜阳");
strs.add("南京");
strs.add("苏州市工业园区");

for(Iterator itor=strs.iterator();itor.hasNext();){
String st=(String)itor.next();
System.out.println(Localtion.parseLocation(st));
}

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  信息抽取 爬虫