网页信息抽取阶段性成果
2009-07-21 11:10
274 查看
输入为一组相似页面,输出为模板与抽取结果
下面是其中一个页面的自动抽取结果,语义标注也是自动完成的
源网页地址:
http://item.taobao.com/auction/item_detail-0db2-b0d5cc590d53cdbea63e8376926450e6.htm
抽取结果:
下面是其中一个页面的自动抽取结果,语义标注也是自动完成的
源网页地址:
http://item.taobao.com/auction/item_detail-0db2-b0d5cc590d53cdbea63e8376926450e6.htm
抽取结果:
<?xml version="1.0" encoding="GBK"?> <Content> <content id="1"> <semantic>标题</semantic> <content>93GS奢华独显本神舟优雅HP650D5售3998-淘宝网</content> </content> <content id="38"> <semantic>宝贝详情</semantic> <content>93GS奢华独显本神舟优雅HP650D5售3998</content> </content> <content id="40"> <semantic>一 口 价:</semantic> <content>3998.00</content> </content> <content id="43"> <semantic>运 费:</semantic> <content>卖家承担运费</content> </content> <content id="45"> <semantic>累积售出:</semantic> <content>12</content> </content> <content id="61"> <semantic>每购买一件赠送</semantic> <content>1999</content> </content> <content id="76"> <semantic>(库存</semantic> <content>28</content> </content> <content id="88"> <semantic>收藏人气:</semantic> <content>29 (</content> </content> <content id="126"> <semantic>颜色:</semantic> <content>膜内漾印</content> </content> <content id="127"> <semantic>品牌:</semantic> <content>神舟</content> </content> <content id="128"> <semantic>成色: 全新</semantic> <content>神舟系列型号: 优雅系列</content> </content> <content id="129"> <semantic>成色: 全新</semantic> <content>优雅系列配置: 神舟 优雅HP650D5</content> </content> <content id="130"> <semantic>屏幕比例:</semantic> <content>宽屏16:10</content> </content> <content id="131"> <semantic>屏幕尺寸:</semantic> <content>14寸</content> </content> <content id="132"> <semantic>CPU平台:</semantic> <content>Core 2 Duo/酷睿二代</content> </content> <content id="133"> <semantic>Core 2 Duo/酷睿二代型号:</semantic> <content>其它酷睿二代</content> </content> <content id="134"> <semantic>CPU频率量级:</semantic> <content>2.0GHz</content> </content> <content id="135"> <semantic>显存容量:</semantic> <content>256M</content> </content> <content id="136"> <semantic>CPU电压规格:</semantic> <content>标准版电压</content> </content> <content id="137"> <semantic>硬盘容量:</semantic> <content>250G</content> </content> <content id="138"> <semantic>内存容量:</semantic> <content>2G</content> </content> <content id="139"> <semantic>光驱类型:</semantic> <content>DVD刻录</content> </content> <content id="140"> <semantic>笔记本价格区间:</semantic> <content>3001-5000元</content> </content> <content id="141"> <semantic>笔记本显卡类型:</semantic> <content>独立</content> </content> <content id="142"> <semantic>独立显卡型号:</semantic> <content>nVidia Geforce 9300M GS</content> </content> <content id="144"> <semantic>上市时间:</semantic> <content>2009年</content> </content> <content id="145"> <semantic>笔记本定位:</semantic> <content>便携定位</content> </content> <content id="146"> <semantic>重量:</semantic> <content>2-2.5公斤</content> </content> <content id="176"> <semantic>开始:</semantic> <content>2009年07月14日 14点41分32秒</content> </content> <content id="180"> <semantic>结束:</semantic> <content>2009年07月21日 14点41分32秒</content> </content> <content id="184"> <semantic>最后编辑时间:</semantic> <content>2009年07月08日 10点31分40秒</content> </content> <content id="186"> <semantic>编号:</semantic> <content>b0d5cc590d53cdbea63e8376926450e6</content> </content> <content id="188"> <semantic>运费:</semantic> <content>卖家承担运费</content> </content> <content id="257"> <semantic>价格:</semantic> <content>3998.00</content> </content> <content id="268"> <semantic>,与掌柜即时交流。</semantic> <content>问:</content> </content> <content id="269"> <semantic>,与掌柜即时交流。</semantic> <content>请问支持上门购买吗,有哪些配件呢</content> </content> <content id="270"> <semantic>,与掌柜即时交流。</semantic> <content>(</content> </content> <content id="272"> <semantic>,与掌柜即时交流。</semantic> <content>k718853499</content> </content> <content id="273"> <semantic>,与掌柜即时交流。</semantic> <content>)</content> </content> <content id="274"> <semantic>,与掌柜即时交流。</semantic> <content>[2009-07-12 07:15]</content> </content> <content id="275"> <semantic>,与掌柜即时交流。</semantic> <content>答:</content> </content> <content id="276"> <semantic>,与掌柜即时交流。</semantic> <content>支持,我们的地址是深圳市龙岗坂田坂雪岗工业城新天下集团。</content> </content> <content id="277"> <semantic>,与掌柜即时交流。</semantic> <content>[2009-07-12 07:15]</content> </content> <content id="549"> <semantic>Copyright 2003-2009, 版权所有 TAOBAO.COM</semantic> <content>item32.cm3</content> </content> </Content>
相关文章推荐
- 网页信息抽取阶段性成果(续)
- 利用正则表达式抽取网页信息
- WEB网页结构化信息抽取技术介绍(网页库级)
- 网页库级垂直搜索引擎技术(三)一堆信息抽取的资料文档
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
- WEB网页结构化信息抽取技术介绍(网页库级)
- WEB网页结构化信息抽取技术介绍(网页库级)
- Java抽取网页信息
- 支持AJAX的网页信息抽取方案
- WEB网页结构化信息抽取技术介绍
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
- 使用JRegex抽取网页信息
- WEB网页结构化信息抽取技术介绍(网页库级)
- xpath与正则表达式抽取网页信息的速度比较
- 抽取网页信息
- 利用视觉模型对网页有效信息的抽取
- Java使用正则表达式及字符串操作,抽取网页信息
- 今天修正了网页抽取器,一个小时可抽取10W笔黄页信息
- Android_WebView加载网页保存信息到Cookie
- 网页信息抓取进阶 支持Js生成数据 Jsoup的不足之处