python爬取北京租房信息
2018-06-11 11:39
253 查看
租房助手
发现官网的筛选方式不能满足自己的需求,所以爬取相关网站制作出现在的东西来效果预览-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blank">在线预览</a>
###下面进行详细分析
一.首先爬取起始地和终点地的路线及沿途地铁站名称
1.爬取8684.cn的地铁查询:
pattern = 'http://bjdt.8684.cn/so.php?k=p2p&q={}&q1={}'
q->起始位置,q1为目标位置。返回的是html页面。
2.采用scrapy进行xpath解析,提取相关的html标签和值
如提取线路方案列表的xpath表达式
Selector(text=body).xpath( "//div[@class='iContainer clear']/div[@class='iMain']/div[@class='transferMainShowWrap']/ul[@class='tms-mn tms-project']/li") .extract()
3.提取出线路方案列表后,针对列表中的每个元素进行提取站点的操作,可参考提取a标签,但剔除带有class属性的html值。
4.将所有的站点放到一个列表中,同时针对列表元素进行去重操作,记得记录路线描述和距离,可定义相关对象来维护。
二.通过站点查询租房信息
1.主要对自如官网进行爬取。
pattern=http://www.ziroom.com/z/nl/z2.html?qwd={}
qwd可能需要进行urlencode
返回的是html页面,需要对页面进行分析,首先提取出总页数,然后根据总页数去请求其余页面。上面的url附加q参数,q参数为页面索引,即是单独页面链接
2.针对单个页面提取各个单条项目的信息。
如提取单个页面的信息列表
ls = Selector(text=body).xpath("//ul[@id='houseList']/li").extract();
针对列表进行单个处理,提取感兴趣的信息。
3.处理封装返回。
针对提取的信息,进行筛选,例如对价格进行筛选,对大小进行筛选,不用做排序。采用前端框架来进行排序。后台做的处理已经够多了。
三.接入到公众号中
可以接入到公众号中,提高公众号的影响力,具体的公众平台对接请参考<a href="https://github.com/zc1024/wxplatform/blob/master/weixin.py" target="_blank">访问github开源项目</a>
相关文章推荐
- [置顶] python爬虫实践——零基础快速入门(四)爬取小猪租房信息
- python爬虫--小猪短租的租房信息
- Python爬虫初体验之赶集网租房信息获取
- Python2 Python3 爬取赶集网租房信息,带源码分析
- Python爬虫入门 | 5 爬取小猪短租租房信息
- Python3爬虫:爬取大众点评网北京所有酒店评分信息
- Python实战1_3:爬取租房信息
- Python爬虫--爬取赶集网的租房信息
- 利用高德API + Python爬取链家网租房信息 01
- Python爬虫(一)——开封市58同城租房信息
- python 爬虫抓取19楼租房信息
- Python 爬虫学习2爬取租房网站信息
- python爬虫租房信息在地图上显示
- python3爬取租房的信息
- Python爬链家网租房信息
- python爬取淘宝商品信息并加入购物车
- python3实现爬取淘宝页面的商品的数据信息(selenium+pyquery+mongodb)
- python获取Linux下文件版本信息、公司名和产品名的方法