突发的灵感,庞大的互联网数据库设想!
2008-07-06 15:34
183 查看
本人是个初学者,接触过存取数据的方式只有通过数据库、xml、文本这些进行简单的存取。如果我自己开一个门户类型网站,那么我每天可能必须要更新我网站的新闻或者其他每天都在变的内容。每天繁琐又没有技术含量的操作,只是为了采集一些数据插入到数据库里,多麻烦。有人会让我用机器人采集数据,我觉得这样还是有些麻烦。于是今天突发奇想,在说重点之前,我先举个例子说明一下。正常做一个项目都会用到数据库,就 拿mssql来讲,每操作的时候可以通过简单的sql语句拿到数据,例如:select * from table。我的设想就是自己定制一种语法,可以采集本地机器或网络上的任何资源。
说一下流程:
1.假设百度数据库服务器存着网站的数据
2.百度的程序员写了一套程序漂亮的展示出了数据
3.用户访问百度的域名可以查看到很漂亮的页面,取得自己想看的信息。
就以上3点,如果我们想连接百度数据库拿到数据供我们自己用,大家想想可能吗?但有一点,我们可以轻松拿到百度给客户展示后的数据,也就是网页源代码,我们可以从源代码进行分析,最终把网页源代码的数据处理成原始数据。OK,我们拿到了,这样想怎么用就怎么用了吧?
我的目的就是要自己做一个框架,让各位使用简单的方式取到某网站页面原始数据,框架只起中间层分析处理作用。怎么拿数据使用者是看不到的。
我想我这个想法网络上还没有成熟的作品吧?
此框架最终目的是把互联网络变成一个超大型数据库,想取什么取什么,嘿嘿,想法不错吧!
为了让大家更好理解我的想法,我做了个简单的例子。可以参考一下,或者有更好的实现思路感谢各位提醒了。
这个例子暂时能够实现的功能是通过我自定义的语句来获取某个网页的源代码、获取某个页面的超链接。
select link.url,link.body from [url:http://www.cnblogs.com/;encoding=utf-8]
语法简要说明
select * from [url:http://网址;encoding=页面编码] 可以获得一个网站的源代码
select link.* from [url:http://网址;encoding=页面编码] 获取一个网页的所有超链接
页面编码可不填写,默认页面编码为gb2312
可显示的超链接属性:
link.url,link.title,link.id,link.name,link.target,link.body
目前为了测试,暂时只有两个简单的语法。
以后的目标将增加各种查询条件,让数据查询更灵活。
源代码:http://files.cnblogs.com/dirain/SearchData.rar
我写的代码可能是最笨的方式,希望各位能留言帮忙提供实现思路,谢谢。
说一下流程:
1.假设百度数据库服务器存着网站的数据
2.百度的程序员写了一套程序漂亮的展示出了数据
3.用户访问百度的域名可以查看到很漂亮的页面,取得自己想看的信息。
就以上3点,如果我们想连接百度数据库拿到数据供我们自己用,大家想想可能吗?但有一点,我们可以轻松拿到百度给客户展示后的数据,也就是网页源代码,我们可以从源代码进行分析,最终把网页源代码的数据处理成原始数据。OK,我们拿到了,这样想怎么用就怎么用了吧?
我的目的就是要自己做一个框架,让各位使用简单的方式取到某网站页面原始数据,框架只起中间层分析处理作用。怎么拿数据使用者是看不到的。
我想我这个想法网络上还没有成熟的作品吧?
此框架最终目的是把互联网络变成一个超大型数据库,想取什么取什么,嘿嘿,想法不错吧!
为了让大家更好理解我的想法,我做了个简单的例子。可以参考一下,或者有更好的实现思路感谢各位提醒了。
这个例子暂时能够实现的功能是通过我自定义的语句来获取某个网页的源代码、获取某个页面的超链接。
select link.url,link.body from [url:http://www.cnblogs.com/;encoding=utf-8]
语法简要说明
select * from [url:http://网址;encoding=页面编码] 可以获得一个网站的源代码
select link.* from [url:http://网址;encoding=页面编码] 获取一个网页的所有超链接
页面编码可不填写,默认页面编码为gb2312
可显示的超链接属性:
link.url,link.title,link.id,link.name,link.target,link.body
目前为了测试,暂时只有两个简单的语法。
以后的目标将增加各种查询条件,让数据查询更灵活。
源代码:http://files.cnblogs.com/dirain/SearchData.rar
我写的代码可能是最笨的方式,希望各位能留言帮忙提供实现思路,谢谢。
相关文章推荐
- 我设想的数据库的来由
- 互联网数据库架构设计思路
- SQL 2005 清除庞大的数据库日志文件的办法 [转]
- 美团点评数据库高可用架构的演进与设想
- Amazon DynamoDB, 面向互联网应用的高性能、可扩展的NoSQL数据库
- ORACLE 报表数据库开发设想
- 中国互联网数据库技术资料下载
- 淘宝DBA组织的“iDataForum2010中国互联网数据库技术论坛”参会心得
- [lampp] 不能通过互联网连接数据库 MySQL is not accessable via network
- 几大互联网公司的数据库访问层架构概览
- 云计算下的数据库 分析 以及部分互联网公司目前采用的新型数据库总结
- 异地(公网)数据库容灾,SQL SERVER互联网自动备份,SQL SERVER数据库镜像
- 云计算演义(2)企业IT之王IBM互联网之王Google数据库之王Oracle狂奔在与关闭公有云赛跑的路上(上)
- 淘宝DBA组织的“iDataForum2010中国互联网数据库技术论坛”参会心得
- sql 数据库 庞大数据量 需要分表
- 突发灵感,单进程的自我守护
- Amazon DynamoDB, 面向互联网应用的高性能、可扩展的NoSQL数据库
- 王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第二门课程:云计算分布式大数据Hadoop数据库管理员企业级动手实践
- 关于把hadoop和pg整合成为一个分布式数据库的初步设想
- mysql 数据库集群搭建:(一)VirtualBox中多台CentOS虚拟机间和windows主机间互通以及访问互联网设置