您的位置：首页 > 编程语言 > Python开发

python 爬虫笔记--简单静态

2016-05-27 17:05 483 查看

不太懂网页上的专业术语。。。

1.首先查看页面源代码：查看要爬取的数据是什么样的，在哪个标签下，能不能用xpath或者bs4取出来。

2.f12此页面，刷新查看页面响应时，能看到的信息。主要是消息头里的请求网址，请求方法，host,user-agent,cookie以及参数里的数据。及时查看响应，看出现的页面是否为自己想要的。

3.如果是post方法：要记录参数里的数据：postdata={}，字典型写入看到的数据。如果是get方法，查看参数时，可以是params={}，同样写入参数。

要爬取的页面网址就是请求网址。

4.写爬虫语句：

session=requests.session()
url=""
user_agent=""
headers={'User-Agent':user_agent,'Host':''}
#必要的参数也可以写上
postdata={}
params={}

html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)
text=html.text
print text

html=session.get(url=url,headers=headers,cookies=cookies,params=params)

5.分析获取的网页，获取其中的数据。主要用了requests+xpath的组合，比较容易。实在不行就用正则表达式。

Tip:xpath 要获取标签中某属性值，比如a标签，可以用：x=tree.xpath('//a[@href=""]/@href')。

要获取标签之中的文本，可以用：x=tree.xpath('//a[@href=""]/text()')

6.数据存入数据库

简单的可以用pymssql模块

conn=pymssql.connect(数据库参数)

Tip:sql语句：要注意变量的应用，可以用%s代替。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

新的分享

章节导航