您的位置：首页 > 编程语言 > Python开发

Python，分析爬取简单waterfall型网页的部分内容

2017-06-11 20:55 393 查看

网址：https://knewone.com/discover

此类网站为滚动翻页模式，利用浏览器网络监视器下的XHR类来分析网络请求活动，可以看到在网页往下滚动翻页时浏览器发送了一个新的GET请求：

由此可以得到详细的页面地址。

抓取前十页中的精选产品图片，粉丝数，标题，二级链接等内容，代码如下：

from bs4 import BeautifulSoup
import requests
import time

url = 'https://knewone.com/discover?page='

def get_page(url):

wb_data=requests.get(url)
soup=BeautifulSoup(wb_data.text,'lxml')

data=[]

titles=soup.select('section.content > h4 > a')
imgs=soup.select('a.cover-inner > img')
fanciers_counts=soup.select('span.fanciers_count')
detail_links=soup.select('a.cover-inner')

for title,img,fanciers_count,detail_link in zip(titles,imgs,fanciers_counts,detail_links):
data={
'title':title.get_text(),
'img':img.get('src'),
'fanciers_count':fanciers_count.get_text(),
'detail_link':detail_link.get('href'),
}
print(data)

def get_more_page(start,end):
for num in range(start,end):
get_page(url+str(num))
time.sleep(1)

get_more_page(1,11)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python 网络

相关文章推荐

新的分享

章节导航