您的位置:首页 > 其它

网页爬虫真实案例记录 小白也能一看就会

2018-02-28 21:06 381 查看
这几年工作中经常用到各种各样的网页爬虫,过年期间整理了一下,把一些比较实用的收集过程贴成动态GIF图片小 ,供以后自己使用。也希望方便到大家。

文中用到的爬虫制作工具官网:前往官网获取

这里以为演示,没 过可视化网页收集的话,不妨跟着动图动手做一做,理解起来更容易些。
下面都是些耗时在1~2分钟左右的演示,包括完整的规则配置过程、实时运行效果。和用代码实现爬虫相比,可视化的优点就是省时间,不是特别麻烦的情况,一般几分钟做出来很正常。下面开始:

先来做一个百度搜索结果的爪取规则:

这是一张会动的Gif图,查看原图>>




这个规则很简单,创建自动翻页循环,创建列表循环。需要注意的是,每个 动作都是Ajax,所以要记得设置上ajax延时,就不会出错了。
要想获得真实链接,可以循环点开“百度快照”,在其中可以提取出来更多完整的信息,加载速度还很快。

论坛收集。这里以天涯论坛为例(天涯论坛贴子和回贴的获取方法):

这是一张会动的Gif图,查看原图>>




按上面动图演示的,大概1分钟左右就能完成规则制作。
自动翻页的XPATH进行了自定义,因为智能识别的不准确,改成//a[text()='下页'] 才能正确 到翻页按钮。修改方法可以参考动图中的演示。
tips:一般不需要修改xpath,如果运行的时候数据爪不准确,可以自定义一下xpath校准。XPATH的使用方法可以参考另一篇文章《在哪里设置xpath

百度贴吧收集(演示某贴吧贴子列表的获取方式):

这是一张会动的Gif图,查看原图>>




这里演示某个贴吧内所有贴子列表的抓取。
贴子内正文和回贴详情,也是一样的制作方法。
需要注意的是,给“ 翻页”设置上3-5秒的ajax延时,就不会出错了。规则制作大约耗时1分钟左右。
新手做网页收集,对于AJAX可能比较不好理解。但是有些AJAX动态加载的情况,必须要设置好延时才行。
有一个方法,可以让新手不受ajax影响:方法就是给每个 动作设置3-5秒的ajax延时,如果这个 是动态加载,设置了延时就不会出错;如果不是动态加载,还可以 新网页的打开时间。
如果不想浪费时间在判断ajax上,就都设置上延时,就可以了。

文章的评论收集和分析:
动图演示网友评论的收集方法
以某篇某篇新闻文章读者评论为例,演示评论收集方法。从制作规则到完成收集耗时约1分10秒,实现了多个评论数据字段的抓取和自动翻页的效果。
实际使用中,可以在第一步填入多条网址批量处理。

对于抓到的评论,可以一键进入智能可视化分析,一键生成图表、对文本进行文本情感语义分析、关键词提取等。
动图演示对评论进行可视化分析的方法
后面举例获取的数据,都可以用相同的方法对数据进行分析。

动图演示今日头条文章列表的获取方法
上图演示的是今日头条首页,瀑布流文章列表的抓取。自动下翻10次,最终获取到77篇文章。规则制作耗时约40秒。

动图演示今日头条文章正文和标签的获取方法
第一步中,一次可以填写上万条文章网址。为了保证执行速度,给“打开网页”步骤设置了5秒延时 , 网页在5秒内加载完成。
这个规则中,正文文本和标签两个字段是手动添加的。正文文本都在section元素内,收集到Section中的p元素,就是干净的正文文本。所以手动向流程中拖拽一个“循环”步骤,在“不固定元素”中填写XPATH://section/p,意为section元素内的所有p元素。“提取数据”步骤中设置数据合并方式为:同一字段多次提取合并为一行。
标签的提取也是同样的原理。可以参考动图里的演示,试一试。
网页数据收集的方法多种多样,除了这样手动提取数据的方法,你也可以试试直接在下面内置浏览器中点选,说不定更方便更好用。

微博按关键词搜索:
动图演示微博某关键词搜索结果的获取方法
这个规则是内置现成的,叫“简易收集”。上面需要自己做流程的是自定义收集。
简易收集不需要自己制作,填上选项就行,一般30秒就能配置完成。
微博这个网页收集自己做规则不好做,登录页面有难度。所以用内置封装好的规则,不仅快而且准确不出错。

微博评论收集
这个规则制作起来有点麻烦,复杂一点的规则我都传到网盘了
,需要的话可以到我的百度网盘自己下载:https://pan.baidu.com/s/1d7thL0

运行效果:

这是一张会动的Gif图,查看原图>>




京东的商品评论:
动图演示京东评论的收集方法
这个规则是内置现成的,不需要自己制作。20秒就能配置完成。

* 百度知道某关键词最新提问
* 百家号某作者全部文章列表爪取演示 用这个获取同行作者的所有文章列表(包括标题和网址)
* 百家号文章正文爪取演示 简单筛选后,再用这个获取每篇文章的正文、标签
* 知乎某关键词搜索
* 查看百度搜索风云榜实时热点top50爪取演示
* 查看贴吧热议榜top20爪取演示
* 查看网易文章 排行榜爪取演示
* 查看新浪博客 排行榜爪取演示
*
4000
查看新浪财经某个表格的爪取演示

总结一下,可视化的工具使用方便,不懂代码也可以做出爬虫。如果懂得一些网页知识、XPATH、正则表达式以等,熟能生巧,可以让收集结果更准确,更加贴合需求。

最最后,欢迎收藏、转载,希望对大家有帮助。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: