您的位置:首页 > 编程语言 > Python开发

Python,分析爬取简单waterfall型网页的部分内容

2017-06-11 20:55 393 查看
网址:https://knewone.com/discover

此类网站为滚动翻页模式,利用浏览器网络监视器下的XHR类来分析网络请求活动,可以看到在网页往下滚动翻页时浏览器发送了一个新的GET请求:



由此可以得到详细的页面地址。

抓取前十页中的精选产品图片,粉丝数,标题,二级链接等内容,代码如下:

from bs4 import BeautifulSoup
import requests
import time

url = 'https://knewone.com/discover?page='

def get_page(url):

wb_data=requests.get(url)
soup=BeautifulSoup(wb_data.text,'lxml')

data=[]

titles=soup.select('section.content > h4 > a')
imgs=soup.select('a.cover-inner > img')
fanciers_counts=soup.select('span.fanciers_count')
detail_links=soup.select('a.cover-inner')

for title,img,fanciers_count,detail_link in zip(titles,imgs,fanciers_counts,detail_links):
data={
'title':title.get_text(),
'img':img.get('src'),
'fanciers_count':fanciers_count.get_text(),
'detail_link':detail_link.get('href'),
}
print(data)

def get_more_page(start,end):
for num in range(start,end):
get_page(url+str(num))
time.sleep(1)

get_more_page(1,11)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Python 网络