jsoup教程011-jsoup+Hibernate抓取某站9万条文章
2017-11-01 16:30
316 查看
jsoup+Hibernate抓取某站9万条文章
平时小落很喜欢看一些励志文章,觉得有助于自己亢奋,然后去给自己个理由去学习去工作。。
今天寻找亢奋的时候忽然看到一个很不错的网站,里面文章很多很全,很不错大家也可以去看看。
觉得很有帮助,于是乎。。。就想保存几篇,但是一篇篇的copy感觉太费劲啦。于是想到了jsoup哈哈。。
于是着手分析起来。
首先看了下文章详情页
大致可以知道文章是在一个class="PostContent"的div容器里放的,利用jsoup解析没什么大问题,只是要去除一些非文章的标签。于是小试了一下
效果很不错,文章解析出来了,但是新的问题又来了。。。
怎么样才能得到网站所有文章呢??
文章的链接是个重要的因素。。于是我进入了一个误区。那就是遍历urls,,,我靠,鼓捣了一会儿,这也太慢了吧。。
原来是文章的序号并不是递增的走的,只好思考新的办法。想了想没有思路,然后在不知不觉点到了类别分页里,我靠这不是解决问题的办法么。。
只要得到分页类别里的文章url不就ok了,,于是又开工。。
效果很不错得到文章的url了,到这里就差不多了,只要在使用这些链接得到内容,然后就持久化就ok了,哈哈,perfect,想想就激动。。。。
继续开工。。。。终于两个小时候。。。
得到了这么个东东
没想到会产生这么大一个sql,第一次见。。。。。
想想太占内存了,还是删了吧,看的时候也麻烦,还得自己查找出来,想看文章还是在上站长的网站上看吧。。。
平时小落很喜欢看一些励志文章,觉得有助于自己亢奋,然后去给自己个理由去学习去工作。。
今天寻找亢奋的时候忽然看到一个很不错的网站,里面文章很多很全,很不错大家也可以去看看。
觉得很有帮助,于是乎。。。就想保存几篇,但是一篇篇的copy感觉太费劲啦。于是想到了jsoup哈哈。。
于是着手分析起来。
首先看了下文章详情页
大致可以知道文章是在一个class="PostContent"的div容器里放的,利用jsoup解析没什么大问题,只是要去除一些非文章的标签。于是小试了一下
效果很不错,文章解析出来了,但是新的问题又来了。。。
怎么样才能得到网站所有文章呢??
文章的链接是个重要的因素。。于是我进入了一个误区。那就是遍历urls,,,我靠,鼓捣了一会儿,这也太慢了吧。。
原来是文章的序号并不是递增的走的,只好思考新的办法。想了想没有思路,然后在不知不觉点到了类别分页里,我靠这不是解决问题的办法么。。
只要得到分页类别里的文章url不就ok了,,于是又开工。。
效果很不错得到文章的url了,到这里就差不多了,只要在使用这些链接得到内容,然后就持久化就ok了,哈哈,perfect,想想就激动。。。。
继续开工。。。。终于两个小时候。。。
得到了这么个东东
没想到会产生这么大一个sql,第一次见。。。。。
想想太占内存了,还是删了吧,看的时候也麻烦,还得自己查找出来,想看文章还是在上站长的网站上看吧。。。
相关文章推荐
- 使用Jsoup解析XML抓取新浪新闻文章
- Scrapy教程--博客园前3000名博友全部文章抓取
- 【Jsoup】抓取文章并定制
- 使用Jsoup 抓取本人CSDN博客文章列表的数据
- hibernate教程--抓取策略详解
- jsoup抓取网页上的数据,Android同时获取数据
- hibernate官方入门教程 (转载)
- Hibernate性能优化之抓取策略和调用存储过程
- Hibernate 3 Annotations进阶教程
- 用onclick事件实现文章可用大字体中字体小字体显示网页教程
- 如何使用HttpClient和Jsoup抓取网页及分析网页
- Jsoup 抓取网页信息(1) 抓取 国际疾病码
- jsoup使用样式class抓取数据时空格的处理
- Hibernate安装教程
- 图文教程:使用MyEclipse的hibernate工具从数据库反向生成实体Bean
- 笔记 03_传智播客hibernate教程_hibernate入门案例的代码优化
- Hibernate学习41 -- 抓取策略1 -- 连接抓取
- AJAX实例文章教程连载(三)
- GIT教程的好文章
- jsoup使用之抓取CSDN个人博客内容