您的位置:首页 > 编程语言 > Python开发

Python爬虫(四)——五个基础爬虫实例

2020-02-17 03:17 232 查看

文章目录

Python爬虫(四)——五个基础爬虫实例

爬取京东商城商品

代码:

import requests
url = "https://item.jd.com/100009996740.html"
try:
r = requests.get(url)
r.raise_for_status() #不返回200产生异常
r.encoding = r.aparent_encoding
print(r.text[:1000])#如果r.text过多会在IDLE上无法显示
except:
print("爬取失败")

爬取亚马逊商品界面

代码:

import requests
url = "https://www.amazon.cn/b/ref=s9_acss_bw_cg_WKebook_1a1_w?node=116169071&pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-9&pf_rd_r=SGMKFB10R7MV2VEZXX20&pf_rd_t=101&pf_rd_p=d857603c-3657-40b3-a25b-d5fe03fd4e10&pf_rd_i=116087071"
try:
kv = {'user-agent':'chrome:10.0'}#与访问京东商城不同,我们需要更改headers字段模拟浏览器访问亚马逊商城。
r = requests.get(url,header=kv)
r.raise_for_status()
r.encoding = r.aparent_encoding
print(r.text[1000:2000])
except:
print("爬取失败")

百度/360搜索关键词提交

百度和360都提供了关键词提交接口:

百度:http://www.baidu.com/s?wd=keyword

360:http://www.so.com/s?q=keyword

所以我们只用替换关键词就可以了。

代码:

import requests
keword = "Python爬虫"
try:
kv =  {'wd':keyword}
user = {'user-agent':'chrome/10.0'}
r = requests.get('https://www.baidu.com/s',headers=user,params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))#之后再加入爬取数据处理
except:
print("爬取失败")

网络图片的爬取和存储

我们需要得到网络图片的地址(找到图片右键复制图片地址)。

代码:

import requests
import os
url = "http://image.ngchina.com.cn/userpic/107269/2019/11181936061072693671.jpeg"#得到的图片地址
path = "D:/getImage.jpg"#你想保存的文件路径
try:
r = requests.get(url)
r.raise_for_status()
with open(path, "wb") as f:
f.write(r.content)
f.close()
print("文件保存成功")
except:
print("爬取失败")

IP地址归属地的自动查询

在IP138我们可以查询IP地址归属地。我们可以用它的url接口:

http://m.ip138.com/ip.asp?ip=ipaddress

代码:

import requests
url = "https://m.ip138.com/ip.asp?ip="
try:
r = requests.get(url+'124.127.207.15')
r.raise_for_status()
r.encoding = r.aparent_encoding
r.text[-500:]
except:
print("爬取失败")
  • 点赞
  • 收藏
  • 分享
  • 文章举报
等等,还有一个bug 发布了13 篇原创文章 · 获赞 1 · 访问量 851 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: