网络数据获取及查询系统目标
2009-09-27 17:10
381 查看
最近想把以前设计的网络数据获取及查询系统重新进行整理,明确新目标,以形成新的产品,看是否有新的商机。
以前的系统功能如下:
1、实现了一个网络数据的抓取配置程序:
支持用户名、密码登陆;还不支持验证码图片识别;
支持数字证书登陆;
支持表单自动提交;
支持表单数据自动填写;
支持流程配置:支持一系列动作,如:直接跳转、表单赋值、 点击跳转、表格定位解析、网页取值、javascript函数执行、条件返回、表格循环解析、表单取值、点击操作和div循环解析;
实现基于正则表达式的网页数据解析;
结果可配置;获取的结果可以动态、可视配置,可加入模板
流程可配置;
实现多页数据获取,自动获取页码
支持记录唯一索引,避免相同信息重复入库
2、已实现的应用:
淘宝店铺数据获取;输入关键字,可以获取所有符合条件淘宝店的数据,包括店主名、店铺名称、主营、所在地、等级、宝贝数量等信息;
淘宝评价数据获取;对指定店面列表,下载最新的评价数据,包括买家、价格、宝贝名称、评价等数据,并可进行简单的数据分析;
基于网络信息的短信查询系统;通过短信查询互联网上的数据;如:手机归属地、IP地址所在地、天气预报、火车时刻表、航班时刻表、股票信息等数据。
3、计划实现的目标:
实现图片、文件下载
实现验证码识别,能够自动登录有识别码的网站
实现DIV的循环解析,已实现了机遇DIV ID属性的DIV数据循环解析,待实现只有DIV CLASS属性的数据信息
实现“详细信息”获取;譬如获取新闻内容(包括带HTML格式的和不带HTML格式的);
实现定时抽取
实现一个流程多个结果数据合并
以前的系统功能如下:
1、实现了一个网络数据的抓取配置程序:
支持用户名、密码登陆;还不支持验证码图片识别;
支持数字证书登陆;
支持表单自动提交;
支持表单数据自动填写;
支持流程配置:支持一系列动作,如:直接跳转、表单赋值、 点击跳转、表格定位解析、网页取值、javascript函数执行、条件返回、表格循环解析、表单取值、点击操作和div循环解析;
实现基于正则表达式的网页数据解析;
结果可配置;获取的结果可以动态、可视配置,可加入模板
流程可配置;
实现多页数据获取,自动获取页码
支持记录唯一索引,避免相同信息重复入库
2、已实现的应用:
淘宝店铺数据获取;输入关键字,可以获取所有符合条件淘宝店的数据,包括店主名、店铺名称、主营、所在地、等级、宝贝数量等信息;
淘宝评价数据获取;对指定店面列表,下载最新的评价数据,包括买家、价格、宝贝名称、评价等数据,并可进行简单的数据分析;
基于网络信息的短信查询系统;通过短信查询互联网上的数据;如:手机归属地、IP地址所在地、天气预报、火车时刻表、航班时刻表、股票信息等数据。
3、计划实现的目标:
实现图片、文件下载
实现验证码识别,能够自动登录有识别码的网站
实现DIV的循环解析,已实现了机遇DIV ID属性的DIV数据循环解析,待实现只有DIV CLASS属性的数据信息
实现“详细信息”获取;譬如获取新闻内容(包括带HTML格式的和不带HTML格式的);
实现定时抽取
实现一个流程多个结果数据合并
相关文章推荐
- proc文件系统中cpu,内存,网络数据使用情况获取(附检测网速源码)
- android天气查询(二)之网络json数据的获取
- content provider 的query使用查询系统数据,获取所有音乐的title
- 沪深股票历史财报数据查询系统网络共享版
- iOS 从网络获取json数据的系统方法
- android天气查询(二)之网络json数据的获取
- Linux下通过ioctl系统调用来获取和设置网络信息
- 将Sql查询语句获取的数据插入到List列表里面
- jsp获取struts2查询到的数据
- 根据地址, 通过Retrofit 获取网络数据, 显示在RecycleView 中
- 网络数据获取
- Json返回查询的数据,前台ajax获取
- angular 请求网络数据 展示table 查询关键字 过滤 删除 添加 修改
- 用效劳来获取网络图片和播放音乐的比如。主要是效劳传递数据的操练
- oracle数据库中可以查询数据,test测试类中获取数据报空指针异常错误
- Android通过URL获取网络数据
- python自动化运维学习------使用模块psutil获取系统cpu、内存、磁盘、网络、进程等信息
- 日志系统实战(二)-AOP动态获取运行时数据
- Hadoop第7周练习—MapReduce进行数据查询和实现推简单荐系统
- Splunk大数据日志分析系统远程获取日志数据