您的位置：首页 > 编程语言 > Python开发

Python爬虫（四）——五个基础爬虫实例

2020-02-17 03:17 232 查看

文章目录

Python爬虫（四）——五个基础爬虫实例
爬取京东商城商品
爬取亚马逊商品界面
百度/360搜索关键词提交
网络图片的爬取和存储
IP地址归属地的自动查询

Python爬虫（四）——五个基础爬虫实例

爬取京东商城商品

代码：

import requests
url = "https://item.jd.com/100009996740.html"
try:
r = requests.get(url)
r.raise_for_status() #不返回200产生异常
r.encoding = r.aparent_encoding
print(r.text[:1000])#如果r.text过多会在IDLE上无法显示
except:
print("爬取失败")

爬取亚马逊商品界面

代码：

import requests
url = "https://www.amazon.cn/b/ref=s9_acss_bw_cg_WKebook_1a1_w?node=116169071&pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-9&pf_rd_r=SGMKFB10R7MV2VEZXX20&pf_rd_t=101&pf_rd_p=d857603c-3657-40b3-a25b-d5fe03fd4e10&pf_rd_i=116087071"
try:
kv = {'user-agent':'chrome:10.0'}#与访问京东商城不同，我们需要更改headers字段模拟浏览器访问亚马逊商城。
r = requests.get(url,header=kv)
r.raise_for_status()
r.encoding = r.aparent_encoding
print(r.text[1000:2000])
except:
print("爬取失败")

百度/360搜索关键词提交

百度和360都提供了关键词提交接口：

百度：http://www.baidu.com/s?wd=keyword

360：http://www.so.com/s?q=keyword

所以我们只用替换关键词就可以了。

代码：

import requests
keword = "Python爬虫"
try:
kv =  {'wd':keyword}
user = {'user-agent':'chrome/10.0'}
r = requests.get('https://www.baidu.com/s',headers=user,params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))#之后再加入爬取数据处理
except:
print("爬取失败")

网络图片的爬取和存储

我们需要得到网络图片的地址（找到图片右键复制图片地址）。

代码：

import requests
import os
url = "http://image.ngchina.com.cn/userpic/107269/2019/11181936061072693671.jpeg"#得到的图片地址
path = "D:/getImage.jpg"#你想保存的文件路径
try:
r = requests.get(url)
r.raise_for_status()
with open(path, "wb") as f:
f.write(r.content)
f.close()
print("文件保存成功")
except:
print("爬取失败")

IP地址归属地的自动查询

在IP138我们可以查询IP地址归属地。我们可以用它的url接口：

http://m.ip138.com/ip.asp?ip=ipaddress

代码：

import requests
url = "https://m.ip138.com/ip.asp?ip="
try:
r = requests.get(url+'124.127.207.15')
r.raise_for_status()
r.encoding = r.aparent_encoding
r.text[-500:]
except:
print("爬取失败")

点赞
收藏
分享
文章举报

等等，还有一个bug 发布了13 篇原创文章 · 获赞 1 · 访问量 851 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航