抓取纯文本网页
2013-09-24 16:11
197 查看
今天第一节课学习了用telnet抓取网页。
这里就用学校的主页为例子抓取:
telnet www.sysu.edu.cn 80
然后键入
GET /2012/cn/index.htm HTTP/1.1(这里就是你要抓取的页面,然后http协议是1.1)
Host: www.sysu.edu.cn
Connection: close
(然后两次回车,就可以得到以下界面)
这不是完整的界面,因为抓取的文件有点大,可以重定向到文件中去。
直接 telnet www.sysu.edu.cn 80 >>file
//-------------------------------------------------------------------------------------------------------------------------------------//
但是平时我提取网页的时候都是使用的现成的工具:
lynx -dump www.sysu.edu.cn /2012/cn/index.htm > sysu.txt
一般情况下,当我们要下载一个网页的时候,多半是下载了一个html格式的纯文本文件,肉眼不容易彻底看懂,需要借助浏览器查看。而lynx就是一个基于命令的web浏览器,它可以将所有的超连结作为文本输出到references标题之下,不需要我们单独解析了。
这里就用学校的主页为例子抓取:
telnet www.sysu.edu.cn 80
然后键入
GET /2012/cn/index.htm HTTP/1.1(这里就是你要抓取的页面,然后http协议是1.1)
Host: www.sysu.edu.cn
Connection: close
(然后两次回车,就可以得到以下界面)
这不是完整的界面,因为抓取的文件有点大,可以重定向到文件中去。
直接 telnet www.sysu.edu.cn 80 >>file
//-------------------------------------------------------------------------------------------------------------------------------------//
但是平时我提取网页的时候都是使用的现成的工具:
lynx -dump www.sysu.edu.cn /2012/cn/index.htm > sysu.txt
一般情况下,当我们要下载一个网页的时候,多半是下载了一个html格式的纯文本文件,肉眼不容易彻底看懂,需要借助浏览器查看。而lynx就是一个基于命令的web浏览器,它可以将所有的超连结作为文本输出到references标题之下,不需要我们单独解析了。
相关文章推荐
- cmd下开启telnet的方法
- 解析:通过php socket并借助telnet实现简单的聊天程序
- Telnet
- Red hat AS4开启telnet过程
- 'telnet'不是内部或外部命令,也不是可运行的程序或批处理文件
- 在cisco路由器上面配置SSH代替Telnet
- Telnet、SSH(SSH1和SSH2)之间的区别
- Linux的Telnet服务
- linux下自动登录ssh/telnet脚本
- linux 每日学一点《利用Telnet远程登录Linux主机的注意事项》
- telnet远程登录小结
- linux 9.0开启telnet服务
- 常用网络端口说明
- 你真的了解telnet吗?
- Telnet到端口25以测试SMTP通信
- CentOS5启用Telnet服务详解
- Linux 配置Telnet
- redhat上配置telnet [转载]
- telnet的应用
- 修改本地2003的telnet端口方法