Python爬虫(四)——五个基础爬虫实例
2020-02-17 03:17
232 查看
文章目录
Python爬虫(四)——五个基础爬虫实例
爬取京东商城商品
代码:
import requests url = "https://item.jd.com/100009996740.html" try: r = requests.get(url) r.raise_for_status() #不返回200产生异常 r.encoding = r.aparent_encoding print(r.text[:1000])#如果r.text过多会在IDLE上无法显示 except: print("爬取失败")
爬取亚马逊商品界面
代码:
import requests url = "https://www.amazon.cn/b/ref=s9_acss_bw_cg_WKebook_1a1_w?node=116169071&pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-9&pf_rd_r=SGMKFB10R7MV2VEZXX20&pf_rd_t=101&pf_rd_p=d857603c-3657-40b3-a25b-d5fe03fd4e10&pf_rd_i=116087071" try: kv = {'user-agent':'chrome:10.0'}#与访问京东商城不同,我们需要更改headers字段模拟浏览器访问亚马逊商城。 r = requests.get(url,header=kv) r.raise_for_status() r.encoding = r.aparent_encoding print(r.text[1000:2000]) except: print("爬取失败")
百度/360搜索关键词提交
百度和360都提供了关键词提交接口:
百度:http://www.baidu.com/s?wd=keyword
360:http://www.so.com/s?q=keyword
所以我们只用替换关键词就可以了。
代码:
import requests keword = "Python爬虫" try: kv = {'wd':keyword} user = {'user-agent':'chrome/10.0'} r = requests.get('https://www.baidu.com/s',headers=user,params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))#之后再加入爬取数据处理 except: print("爬取失败")
网络图片的爬取和存储
我们需要得到网络图片的地址(找到图片右键复制图片地址)。
代码:
import requests import os url = "http://image.ngchina.com.cn/userpic/107269/2019/11181936061072693671.jpeg"#得到的图片地址 path = "D:/getImage.jpg"#你想保存的文件路径 try: r = requests.get(url) r.raise_for_status() with open(path, "wb") as f: f.write(r.content) f.close() print("文件保存成功") except: print("爬取失败")
IP地址归属地的自动查询
在IP138我们可以查询IP地址归属地。我们可以用它的url接口:
http://m.ip138.com/ip.asp?ip=ipaddress
代码:
import requests url = "https://m.ip138.com/ip.asp?ip=" try: r = requests.get(url+'124.127.207.15') r.raise_for_status() r.encoding = r.aparent_encoding r.text[-500:] except: print("爬取失败")
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- Python爬虫(五)——Beautiful Soup库
- Python基础笔记(1)
- 利用pyinstaller 打包Python文件
- Python中的单例模式
- Python中区分函数和方法
- Python之时间复杂度
- Python学习之崖(1)
- python import MySQLdb报错
- python2与python3的区别
- Python定时任务框架:APScheduler源码剖析(三)
- 使用Python实现RPC框架
- Error loading Python DLL ‘python36.dll'. LoadLibrary: 找不到指定的模块。
- python基础
- Python与PLC踩坑实录:成功解决西门子 PLC S7-200_SMART与PC连接时不能同时用Python的snap7包和step7软件同时连接
- [python] raw string,反斜杠\,re Lib
- [python] matplotlib 中文汉字 更改字体
- Python学习笔记之——生成器和迭代器
- python列表,字典排序
- python连接数据库的几种方式!
- 用python爬取伯乐在线的准备