csdn博客爬虫更新
2017-08-17 15:58
337 查看
几天没上csdn博客,不知道为什么给我csdn首页改了, 不是以前的网页布局了,所以之前写的csdn博客爬虫也就宣告失效,所以今天修改了下之前写的xpath爬虫,正则爬虫就没改了,改的有点麻烦
# -*- coding:gbk -*- import sys import requests import re from lxml import etree from lxml import html as ht def download(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"} html=requests.get(url,headers=headers).text return html html2=download("http://blog.csdn.net/Joliph") selector2=etree.HTML(html2) pagelist=selector2.xpath('//*[@id="papelist"]/a[last()-2]/text()')[0] #这里有有个潜在的问题,在我博客写到5页以上时出现...后无法判断页数 pagelist=int(pagelist) for page in range(1,pagelist+1): url="http://blog.csdn.net/Joliph/article/list/"+str(page) html=download(url) selector=etree.HTML(html) titlelist=selector.xpath('//*[@class="link_title"]/a/text()') datelist=selector.xpath('//*[@class="article_manage"]/span[1]/text()') #/text()!!!!!!!!!!!!!!!!!!!!!!! number=len(titlelist) for i in range(1,number+1): tree=ht.fromstring(titlelist[i-1]) strcom=tree.xpath('string(.)') print(datelist[i-1]+"----"+strcom)
相关文章推荐
- 知道创宇爬虫题--代码持续更新中 - littlethunder的专栏 - 博客频道 - CSDN.NET
- C# seo测试小工具1:同时更新多网站的博客(csdn,cnblogs,163,sina)
- 基于WebMagic写的一个csdn博客小爬虫
- 通过爬虫代理IP快速增加博客阅读量——亲测CSDN有效!
- JAVA爬虫挖取CSDN博客文章(续)
- CSDN 博客图片编辑(待更新)
- 本博客已经迁移到 http://nfabo.cn , csdn 博客不再同步更新
- python爬虫之python2.7.8抓取csdn博客文章
- CSDN爬虫(四)——博客专家(所有)爬取+数据分析
- python爬虫爬取csdn博客专家所有博客内容
- 因为本人工作繁忙,精力有限,本博客停止更新。有兴趣的博友可以关注我在CSDN上的主博客
- 本人csdn、iteye、oschina等三个博客同时更新撰写文章,大家都可以看
- Python爬虫自动获取CSDN博客收藏文章
- Python爬虫抓取csdn博客
- 开发记录_自学Python写爬虫程序爬取csdn个人博客信息
- 我的CSDN博客更新
- csdn博客又開始更新了
- 基于WebMagic的CSDN博客爬虫
- 我的新博客http://blog.csdn.net/ExSystem 本博客不再更新,谢谢!
- JAVA爬虫挖取CSDN博客文章