BeatifuSoup获取淘宝商品分类
2014-07-02 16:42
274 查看
利用Beautiful Soup模块,
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。
Beautiful Soup 的中文文档:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Printing%20a%20Document
程序:
运行结果:
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。
Beautiful Soup 的中文文档:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Printing%20a%20Document
程序:
#!/usr/bin/env python #coding=utf-8 import re import urllib2 from BeautifulSoup import BeautifulSoup website = raw_input("请输入网址: ") page = urllib2.urlopen(website).read() html = BeautifulSoup(page,fromEncoding="gbk") h = html.body.findAll(re.compile('h4|h5')) for i in h: if re.search('h4',str(i)): print '--大类--:',i.string elif re.search('h5',str(i)): tag = i.contents[0].contents[0] print tag
运行结果:
请输入网址: http://list.taobao.com/browse/cat-0.htm --大类--: 女装男装 女式上装 女式裤子 女式裙子 其他女装 当季男装 男式裤子 男式上装 其他男装 --大类--: 鞋类箱包 春秋女鞋 夏季女鞋 春秋男鞋 夏季男鞋 特色市场 精品女包 精品男包 功能箱包 --大类--: 内衣配饰 内衣分类 内衣品牌 服装配饰 热门搜索 --大类--: 运动户外 运动鞋 运动服 运动包 户外运动用品 运动/瑜伽/健身/球迷用品 --大类--: 珠宝手表 珠宝钻石 品牌手表 流行饰品 其他配饰 --大类--: 数码 手机 相机/DV 笔记本 平板电脑 电脑周边 办公设备 网络存储 数码配件 --大类--: 家电办公 大家电 厨房电器 生活电器 影音电器 护理按摩 家电配件 --大类--: 护肤彩妆 美容护肤 彩妆香水 美发护发 热门品牌 --大类--: 母婴用品 童装 孕妇用品 新生儿 宝宝食品 宝宝用品 儿童玩具 --大类--: 家居建材 家装主材 住宅家具 家居饰品 家纺布艺 五金电工 装修设计 --大类--: 美食特产 休闲零食 营养品 有机食品 粮油米面 茶/饮料 水果蔬菜 --大类--: 日用百货 收纳整理 居家日用 餐饮用具 洗护清洁 成人用品 --大类--: 汽车摩托 汽车用品 摩托车 --大类--: 文化玩乐 书籍杂志 音像影视 乐器 古董收藏 鲜花园艺 宠物水族 个性定制 成人用品 --大类--: 本地生活 生活超市 生活服务 订餐服务 餐饮美食 卡券消费 电影演出 面包蛋糕 休闲娱乐 --大类--: 虚拟 淘宝网厅 淘宝游戏 淘宝旅行 淘宝保险
相关文章推荐
- [PHP] 编写爬虫获取淘宝网上所有的商品分类以及关键属性 销售属性 非关键属性数据
- Beatiful Soup获取淘宝商品详情
- 获取淘宝商品描述和价格
- asp.net 淘宝api获取商品信息
- ecshop 获取所在商品的顶级分类ID及NAME
- 京东价格监控软件开发技术探讨八:如何获取京东商品分类数据
- PHP实例函数:获取淘宝商品价格
- PHP获取淘宝单个商品信息
- ecshop对接微信小程序接口:获取商品分类
- 淘宝开放平台php-sdk测试 获取淘宝商品信息(转)
- 仿淘宝首页商品分类列表效果
- 根据分类id,获取该分类下的商品数据(商品名,价格,路径,缩略图)
- PHP 获取淘宝商品价格 函数
- php获取淘宝分类id示例
- ECSHOP获取当前分类下商品的品牌列表
- 淘宝 获取商品列表流程
- ECSHOP在商品详细页面上获取该商品的顶级分类id和名称
- PHP获取淘宝所有分类
- 基于ecshop的移动端 etouch实现动态获取分类商品列表