新浪爬虫微博个人地址公司等信息抽取正则表达式
2015-08-21 11:08
218 查看
项目地址:https://github.com/CreditTone/resources
新浪把用户信息生成js。然后动态执行js生成html。所以大家看到为什么在html标签里面找不到信息。大家用下面的正则对静态页面抽取就可以了。
抽取微博数:>(\d+)<\\/strong><span class=\\"S_txt2\\">微博
抽取地址:<em class=\\"W_ficon ficon_cd_place S_ficon\\">2<\\/em><\\/span>[\\rnt\s]+<span class=\\"item_text W_fl\\">[\\rnt\s]+([^\\rnt\s]+[ ]{0,1}[^\\rnt\s]+)[\\rnt\s]+<\\/span>
抽取公司:<span class=\\"S_txt2\\">公司<\\/span>[\\rnt\s]+<a target=\\"_blank\\" href=[^>]+>([^<>]+)<\\/a>
抽取生日:class=\\"item_ico W_fl\\"><em class=\\"W_ficon ficon_constellation S_ficon\\">ö<\\/em><\\/span>[\\rnt\s]+<span class=\\"item_text W_fl\\">[\\rnt\s]+([\d]{4}年[\d]{1,2}月[\d]{1,2}日)
抽取学校:<span class=\\"S_txt2\\">毕业于<\\/span>[\\rnt\s]+<a[^>]+>([^<]+)<\\/a>
抽取个性签名:<div class=\\"pf_intro\\" title=\\"[ ]*([^"]+)\\">
抽取粉丝数:>(\d+)<\\/strong><span class=\\"S_txt2\\">粉丝
抽取新浪id:url=\%2F(\d+)&bottomnav=\d+&wvr=\d+',
由于java语言字符串本身对反斜杠要转义,所以java正则写法与上述有些不同。在这里提供了项目地址。大家download下来后参考下。
新浪把用户信息生成js。然后动态执行js生成html。所以大家看到为什么在html标签里面找不到信息。大家用下面的正则对静态页面抽取就可以了。
抽取微博数:>(\d+)<\\/strong><span class=\\"S_txt2\\">微博
抽取地址:<em class=\\"W_ficon ficon_cd_place S_ficon\\">2<\\/em><\\/span>[\\rnt\s]+<span class=\\"item_text W_fl\\">[\\rnt\s]+([^\\rnt\s]+[ ]{0,1}[^\\rnt\s]+)[\\rnt\s]+<\\/span>
抽取公司:<span class=\\"S_txt2\\">公司<\\/span>[\\rnt\s]+<a target=\\"_blank\\" href=[^>]+>([^<>]+)<\\/a>
抽取生日:class=\\"item_ico W_fl\\"><em class=\\"W_ficon ficon_constellation S_ficon\\">ö<\\/em><\\/span>[\\rnt\s]+<span class=\\"item_text W_fl\\">[\\rnt\s]+([\d]{4}年[\d]{1,2}月[\d]{1,2}日)
抽取学校:<span class=\\"S_txt2\\">毕业于<\\/span>[\\rnt\s]+<a[^>]+>([^<]+)<\\/a>
抽取个性签名:<div class=\\"pf_intro\\" title=\\"[ ]*([^"]+)\\">
抽取粉丝数:>(\d+)<\\/strong><span class=\\"S_txt2\\">粉丝
抽取新浪id:url=\%2F(\d+)&bottomnav=\d+&wvr=\d+',
由于java语言字符串本身对反斜杠要转义,所以java正则写法与上述有些不同。在这里提供了项目地址。大家download下来后参考下。
相关文章推荐
- 程序RPC 1726错误问题的追踪
- objective-c宏定义
- 让浏览器不再显示 https 页面中的 http 请求警报
- HDU 1248 寒冰王座 (水题的N种做法!)(含完全背包)
- 后台动态生成GridView列和模版
- 观察者模式示例
- Python学习笔记之else的特殊用途
- MongoDB简介(一)
- GSON DESERIALISER EXAMPLE
- 代码定位
- 【cJSON】CJSON学习笔记(二)
- Python笔记
- 线程专用钩子和全局钩子的区别
- POJ 2092 Grandpa is Famous 水
- sscanf()中表达式的用法
- iOS宏定义的使用与规范
- Java实现归并排序和快速排序
- Android如何获取手机上面已经安装的app
- IE7浏览器窗口大小改变事件执行多次bug及IE6/IE7/IE8下resize问题
- MySQL5.6.17学习笔记(二)索引介绍