MATLAB简易网络爬虫(未加入DFS)
2012-12-16 17:29
239 查看
% 2012/12/15 1:40 % MUST Edward.xu %% %清空缓存 clear all;close all;clc; %warning off; %warning的部分不显示 %% %打开初始页面 [sourcefile, status] = urlread(sprintf('http://www.sina.cn')); %% %正则匹配 %设定需要匹配的字符串模版,这里是爬虫算法,故获取为超链接 %pattern = '<a.+?href=([""]?)([^>\s]+)\1.*?>([\S\s]+?)<\/a>'; %这个版本是对的 %pattern = '<a href=([""]?)http([^>\s]+)\1'; %这个版本是测试是好的 pattern = '<a href=[""]http([^>\s]+)'; %这个版本是我测试的最好的,2012/12/15 [datafile, data_tokens] = regexp(sourcefile, pattern, 'match', 'tokens');%匹配特定的字符串 data = char(datafile) %% N=2; %爬取的深度 %开始爬虫 for i=1:1:N url_spider = deblank(data(2,:)); [sourcefile, status] = urlread(url_spider(10:end-1)); pattern = '<a href=[""]http([^>\s]+)'; [datafile, data_tokens] = regexp(sourcefile, pattern, 'match', 'tokens');%匹配特定的字符串 data = char(datafile) end
这里只包含了matlab抓网页,以及找出抓出网页里面的超链接,再重复抓的过程,具体加入DFS的版本之后再给出。
相关文章推荐
- 爬虫的基本流程 网络爬虫的基本工作流程如下: 首先选取一部分精心挑选的种子URL 将种子URL加入任务队列 从待抓取URL队列中取出待抓取的URL,解析DNS,并且得到主机的ip,并将URL对应的网
- Python 简易网络爬虫的编写——抓取任意页面数目百度百科内容
- 简易网络爬虫程序的开发(6)(c#版)
- linux c++模拟简易网络爬虫实例
- linux c++模拟简易网络爬虫
- 简易的网络爬虫代码-python
- 实现简易Java网络爬虫
- 从零学习node.js之简易的网络爬虫(四)
- 从0到1学习node之简易的网络爬虫
- 简易网络爬虫程序的开发(1)(c#版)
- 从0到1学习node之简易的网络爬虫_0
- [置顶] 【matlab 爬虫】用matlab做网络爬虫入门系列1
- 简易网络爬虫
- 网络爬虫的简易实现(1)
- python实现简易网络爬虫
- 简易网络爬虫程序的开发(2)(c#版)
- 简易的网络爬虫
- Python网络爬虫之网盘爬虫【简易版】
- 从0到1学习node之简易的网络爬虫
- Matlab----网络爬虫例子