Python数据抓取(3) —抓取标题、时间及链接
2017-12-19 10:59
971 查看
本次分享,jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来
![](https://img-blog.csdn.net/20171219165705262?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvamFja3lfemh1eXVhbmx1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
网页的原始码很复杂,我们必须找到特殊的元素做抽取,怎么找到特殊的元素呢?使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔,我们可以知道可以透过dl-item提取一个一个的列表,既然知道我们要存储的位置在 dl-item下,我们就可以把dl-item下的结构拓展出来,我们接下来就可以根据不同的标签取得不同的内容,我们把一个个的dl-item列出来
![](https://img-blog.csdn.net/20171219172819367?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvamFja3lfemh1eXVhbmx1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
去掉要抓取内容中的中括号[0]
取得里面的文字内容
![](https://img-blog.csdn.net/20171220095901619?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvamFja3lfemh1eXVhbmx1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
抓取a 下的链接,发布来源及发布时间
(一)观察元素抓取位置
网页的原始码很复杂,我们必须找到特殊的元素做抽取,怎么找到特殊的元素呢?使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔,我们可以知道可以透过dl-item提取一个一个的列表,既然知道我们要存储的位置在 dl-item下,我们就可以把dl-item下的结构拓展出来,我们接下来就可以根据不同的标签取得不同的内容,我们把一个个的dl-item列出来
(二)爬虫撰写
import requests from bs4 import BeautifulSoup response = requests.get('http://www.yicai.com/data/') response.encoding = 'utf-8' soup = BeautifulSoup(response.text,'html.parser') for news in soup.select('.dl-item'): print(news.select('h3'))
去掉要抓取内容中的中括号[0]
for news in soup.select('.dl-item'): print(news.select('h3')[0])
取得里面的文字内容
for news in soup.select('.dl-item'): print(news.select('h3')[0].text)
抓取a 下的链接,发布来源及发布时间
for news in soup.select('.dl-item'): h3 = news.select('h3')[0].text a = news.select('a')[0]['href'] h4 =news.select('h4')[0].text print(h4,h3,a)
相关文章推荐
- python做“大数据网页链接+标题爬取”
- Python简单抓取新浪某网页新闻链接及标题
- 【python爬虫】通过python多线程的抓取新浪新闻的标题时间评论信息
- Python爬虫:爬取自己博客的主页的标题,链接,和发布时间
- Python抓取新闻标题和链接
- 数据抓取常用:python时间转换
- [Python] 根据博客园用户名抓取其所有文章的标题及其链接
- Python正则抓取新闻标题和链接的方法示例
- 【数据处理·Python】时间数据处理之Arrow库(转)
- 计时器,每隔一定时间执行一个动作,用于抓取数据
- 分享:Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据
- Jsoup实现新闻网页的爬取,标题,正文,图片,新闻时间,网页链接的解析示例
- python使用spynner抓取动态页面数据
- Python3 爬虫拉勾网抓取数据保存在Excel中
- Python绘制时间序列数据的时序图、自相关图和偏自相关图
- python使用urllib2抓取防爬取链接
- Python实例之抓取HTML中的数据并保存为TXT
- Python爬虫处理抓取数据中文乱码问题
- Python实现抓取页面上链接的简单爬虫分
- Python实例之抓取淘宝商品数据(json型数据)并保存为TXT