7、批量关键字百度搜索结果url解码
2017-03-05 12:23
776 查看
import requests from bs4 import BeautifulSoup import re import time #coding:utf-8 with open('key.txt','r') as f: result = f.read() keys = result.split('\n') key_words = list(enumerate(keys, start=1)) for key in key_words: url = 'https://www.baidu.com/s?wd='+ key[1] header = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36', 'Cookie':'PSTM=1476231684; BIDUPSID=4F526560482E2A5E68D69CC8B0998806; plus_cv=1::m:92e3c68f; BAIDUID=C5A710455602AEA5BEC3D1B13B26321B:FG=1;' ' BDUSS=W5zS3JSeVYwSHZjVm5SdTdjQjlKNC1FLWJqbklvaEptZjVZVkl2bXhMN1o1amhZSVFBQUFBJCQAAAAAAAAAAAEAAACj2nZjanVleWluZ3MAAAAAAAAAAAAAAAAAAAA' 'AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANlZEVjZWRFYT; BD_HOME=1; BD_UPN=12314353; sug=3; sugstore=0; ORIGIN=2; bdime=0;' ' H_PS_645EC=78d5XI4%2Bj6NkSjLKSmkiYdx%2F5jHNa0c4UemYz6WwEpyczIPebiQwaLtzwnXd2gUHv28P; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; BD_CK_SAM=1;' ' PSINO=6; H_PS_PSSID=1448_18288_21112_17001_20241_21455_21406_21394_21377_21192_20929; BDSVRTM=0' } web_db = requests.get(url,headers=header) time.sleep(2) soup = BeautifulSoup(web_db.text,'lxml') titles = soup.select('#content_left > div > h3 > a') ranks = [ i for i in range(1,11)] for title,link,rank in zip(titles,titles,ranks): baidu_url = link.get('href') if str(baidu_url).find('link?url=') > 0 : web_db2 = requests.get(baidu_url, allow_redirects=False) if web_db2.status_code == 200: soup = BeautifulSoup(web_db2.text, 'lxml') urls = soup.select('head > noscript') url2 = urls[0] url_math = re.search(r'\'(.*?)\'', str(url2), re.S) web_url = url_math.group(1) elif web_db2.status_code == 302: web_url = web_db2.headers['location'] else: web_url = 'error' else: web_url = baidu_url data = { 'key':key, 'title':title.get_text(), 'url':web_url.encode('utf-8'), 'rank':rank, } with open('info.txt','a') as f: f.write(str(data)+'\n') print('已完成采集任务' + str(key[0]) + '**********总采集任务' + str(len(key_words)))
相关文章推荐
- 截图留念,“万能数据库查询分析器”作为关键字在百度和谷歌上的海量搜索结果
- JQuery+JS实现仿百度搜索结果中关键字变色效果
- 截图留念,“万能数据库查询分析器”作为关键字在百度和谷歌上的海量搜索结果
- 截图留念,“万能数据库查询分析器”作为关键字在百度和谷歌上的海量搜索结果
- 搜索、关键字-截图留念,“万能数据库查询分析器”作为关键字在百度和谷歌上的海量搜索结果-by小雨
- 根据查询的关键字,实现获取百度指定页数的搜索结果的信息(网页地址,标题,摘要,并有排序的说明)
- PHP 批量获取 百度搜索结果 网址列表
- 【百度爬虫系列 I】多关键字图片搜索结果汇总
- JQuery+JS实现仿百度搜索结果中关键字变色效果
- 像百度搜索结果一样得到一个关键字左右的若干字符
- 【百度爬虫系列 II】关键字搜索url结果汇总(给定关键字和页数)
- JQuery+JS实现仿百度搜索结果中关键字变色效果
- python批量关键字百度搜索结果url解码
- 截图留念,“万能数据库查询分析器”作为关键字在百度和谷歌上的海量搜索结果
- 百度搜索结果右侧模块修改小技巧
- 通过调用关键字来实现测试用例---重复利用百度搜索
- 百度人为操纵搜索结果遭曝光 品牌总监离职
- 用Nightmarejs 获取百度搜索结果数量
- DEDE搜索关键字不能区分大写字母搜索结果的解决方法
- 在百度搜索结果中去除掉一些网站的资料(通过js控制不让显示)