您的位置：首页 > 运维架构 > 网站架构

爬取动态网站数据（soup的css方式处理数据）

2018-02-05 11:52 295 查看

import requests
from bs4 import BeautifulSoup

url = 'https://knewone.com/discover?page='

def get_info(url,data=None):
wd_data = requests.get(url)
soup = BeautifulSoup(wd_data.text,'lxml')
titles = soup.select('section.content > h4 > a')
imgs = soup.select('a.cover-inner > img')
links = soup.select('section.content > h4 > a')

for title,img,link in zip(titles,imgs,links):
data = {
'title':title.get('title'),
'img':img.get('src'),
'link':link.get('href')
}
print(data)

def get_more(start,end):
for one in range(start,end):
get_info(url+str(one))

get_more(1,5)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

动态处理css文件的方式
jquery json xml关于解析两次json数据动态取值的处理方式
echart折线图柱形图数据格式化动态绑定数据 frame处理
asp.net中jquery(ajax)方式处理ashx返回的xml数据（转载）
在网页中以table形式动态输出数据库中数据的方式(1)html与php混写版
《项目经验》--后台一般处理程序向前台JS文件传递JSON，JS解析JSON,将数据显示在界面--显示在DropDownList 或显示在动态创建的table中
【Web】小探部分社交网站对回复他人的处理方式
转 ArcGIS Runtime 加载SHAPE数据的另一种方式-动态图层 .
Hibernate中通过HQL/JPQL查询的方式实现动态数据获取
润乾报表统计图数据重叠处理方式
用curl抓取网站数据，仿造IP、防屏蔽终极强悍解决方式
Java多个线程之间处理共享数据的方式
ASP之处理用Javascript动态添加的表单元素数据的代码
Fragment 的静态方式和动态方式以及动态方式中fragment之间通过activity传递数据（接口回调）：
Python selenium爬虫抓取船舶网站数据（动态页面）
Spring MVC处理前台到后台绑定时间格式、doble等数据的解决方式
HttpWebRequest 向网站提交数据（post与get方式）
swiper在进行动态数据加载时的应用和处理
用乐观并发方式处理数据库并发冲突以保证数据一直性的代码处理方法
用动态生成SQL语句的方法处理数据

新的分享

嵌入式软件开发之程序架构设计-任务调度
嵌入式软件架构设计-程序分层
嵌入式软件架构设计-模块化
阿里大牛是怎么变Bug为宝的？ - 架构
分布式架构下的通信(一)
深度学习与CV教程(9) | 典型CNN架构 (Alexnet,VGG,Googlenet,Resnet等)
Prometheus架构以及原理详细介绍
深度解析数字金融业务发展与配套技术基础建设 - 架构
传统数仓不够用？看广东华兴银行混合型数仓实践思路 - 架构
Gartner对于建设数据中台的建议 - 架构
一文带你搞懂 Kafka 的系统架构（深度好文，值得收藏）
GitHub国内镜像网站

章节导航