phpcms 采集使用讲解与注意事项
2014-11-06 12:09
267 查看
phpcms是国内用的较多的一款内容管理系统网站后台,整体还是比较符合国人的习惯。我在业余时间(费了很多专门时间)试了一下这个后台,
参见 http://www.alongs.tk/cms/ ,当然这个网站做的比较一般,水平如此请见谅。
首先请看 http://down.chinaz.com/try/201203/1732_1.htm,已经大致讲了采集的使用。
因为http://roll.sohu.com/money/会在采集网址结果中出现,而我们的目标又不含这个网址,因此把这个网址给排除。
获取网址那一栏必须填,不填采集不到网址。坑爹的phpcms就是不会留空采集全部网址。
这个怎么填呢?用chrome浏览器按F12 审查元素,找到你要采集的网址所在的最近的标志性标签。如下面图示
(1) 在第一条“全国成品没价格指数创最大跌幅” 上点击右键,审查元素,打开下面的框。
(2)在elements中找到这一段上面一点不远处的<div class="list14"> 把它复制出来,可以在上面点击右键,点copy,但是注意复制的是整个div,要粘贴到记事本中,把我们需要的<div class="list14">取出来就可以了。
(3)后面的<div class="pages">同理。
因此我们用文章中出现的
最重要的是下面的内容规则,这关系到文章的内容能否正确地采集到。
同上,我们要对所要采集的目标网页进行分析。
如图示<!-- 正文 -->是文章内容开始的地方,在下面可以看到,文章结束后有一个<!-- 分享 -->
因此就这样设置
右侧有查看,点击可以看采集的内容。
采集的内容,如果出错,则内容或标题为空。
(2)重要!!! 坑爹的phpcms在这个地方有个bug,如果第一次成功采集,第二次再进行采集的时候会出现
V9第二次采集时出现“没有找到网址列表,请先进行网址采集“的问题。
解决方案请见:
http://bbs.phpcms.cn/thread-444471-1-1.html
如果出现些问题,用MYSQL管理工具,清除v9_collection_history这个表的所有内容即可。
不过还有一个小技巧就是,因为你采集一次过后,导出内容后,这些内容就没有啥用了,可以删除了,如果你在后台一页一页删除实在是太麻烦了,也可以直接删除 v9_collection_content 这个表的所有内容即可。
还可以在已导入 中把已导入的全部删除。
附一个导出来的规则,存到txt文件中,可以从后台导入使用。
大概是用base64编码的规则吧。你可以导入后再进行一点个人的修改。
参见 http://www.alongs.tk/cms/ ,当然这个网站做的比较一般,水平如此请见谅。
首先请看 http://down.chinaz.com/try/201203/1732_1.htm,已经大致讲了采集的使用。
1.新建一个采集点
网址类型我这里用的是单一网页。因为http://roll.sohu.com/money/会在采集网址结果中出现,而我们的目标又不含这个网址,因此把这个网址给排除。
获取网址那一栏必须填,不填采集不到网址。坑爹的phpcms就是不会留空采集全部网址。
这个怎么填呢?用chrome浏览器按F12 审查元素,找到你要采集的网址所在的最近的标志性标签。如下面图示
(1) 在第一条“全国成品没价格指数创最大跌幅” 上点击右键,审查元素,打开下面的框。
(2)在elements中找到这一段上面一点不远处的<div class="list14"> 把它复制出来,可以在上面点击右键,点copy,但是注意复制的是整个div,要粘贴到记事本中,把我们需要的<div class="list14">取出来就可以了。
(3)后面的<div class="pages">同理。
2.在内容规则中输入采集内容的办法
默认是<title>[内容]</title>,采集到的是<title>财经新闻滚动_搜狐资讯-搜狐滚动</title>因此我们用文章中出现的
<div class="title" title="全国成品油价格指数创最大跌幅-搜狐滚动"> <h1>全国成品油价格指数创最大跌幅</h1>作为标题来采集,<h1>[内容]</h1>可以可靠地得到标题。
最重要的是下面的内容规则,这关系到文章的内容能否正确地采集到。
同上,我们要对所要采集的目标网页进行分析。
如图示<!-- 正文 -->是文章内容开始的地方,在下面可以看到,文章结束后有一个<!-- 分享 -->
因此就这样设置
<!-- 正文 -->[内容] <!-- 分享 -->即可采集到内容,在右侧还有过滤选项,不要看这里面输入的非常麻烦,点击选择,会弹出一个框,进行选择,这里将不需要的脚本给过滤掉。
3.进行测试
点击测试,显示采集到的网址。右侧有查看,点击可以看采集的内容。
采集的内容,如果出错,则内容或标题为空。
4.设置好以后,就可以进行采集网址,采集内容,导入内容了
在导入的时候要设置导入选项,这个比较简单大家肯定都会。5.注意事项。
(1)采集经常会失败,就是什么都没采集到。 因为目标网页太复杂,所以尽量选择干净的网页去采集。设置的采集规则要尽量通用。(2)重要!!! 坑爹的phpcms在这个地方有个bug,如果第一次成功采集,第二次再进行采集的时候会出现
V9第二次采集时出现“没有找到网址列表,请先进行网址采集“的问题。
解决方案请见:
http://bbs.phpcms.cn/thread-444471-1-1.html
摘抄如下:
如果出现些问题,用MYSQL管理工具,清除v9_collection_history这个表的所有内容即可。不过还有一个小技巧就是,因为你采集一次过后,导出内容后,这些内容就没有啥用了,可以删除了,如果你在后台一页一页删除实在是太麻烦了,也可以直接删除 v9_collection_content 这个表的所有内容即可。
还可以在已导入 中把已导入的全部删除。
附一个导出来的规则,存到txt文件中,可以从后台导入使用。
eyJsYXN0ZGF0ZSI6IjE0MTUxOTMyMzUiLCJzb3VyY2VjaGFyc2V0IjoiZ2JrIiwic291cmNldHlwZSI6IjMiLCJ1cmxwYWdlIjoiaHR0cDpcL1wvcm9sbC5zb2h1LmNvbVwvbW9uZXlcLyIsInBhZ2VzaXplX3N0YXJ0IjoiMSIsInBhZ2VzaXplX2VuZCI6IjEwIiwicGFnZV9iYXNlIjoiIiwicGFyX251bSI6IjEiLCJ1cmxfY29udGFpbiI6IiIsInVybF9leGNlcHQiOiJodHRwOlwvXC9yb2xsLnNvaHUuY29tXC9tb25leVwvIiwidXJsX3N0YXJ0IjoiPGRpdiBjbGFzcz1cImxpc3QxNFwiPiIsInVybF9lbmQiOiI8ZGl2IGNsYXNzPVwicGFnZXNcIj4iLCJ0aXRsZV9ydWxlIjoiPGgxIGl0ZW1wcm9wPVwiaGVhZGxpbmVcIj5bXHU1MTg1XHU1YmI5XTxcL2gxPiIsInRpdGxlX2h0bWxfcnVsZSI6IiIsImF1dGhvcl9ydWxlIjoiIiwiYXV0aG9yX2h0bWxfcnVsZSI6IiIsImNvbWVmb3JtX3J1bGUiOiIiLCJjb21lZm9ybV9odG1sX3J1bGUiOiIiLCJ0aW1lX3J1bGUiOiIiLCJ0aW1lX2h0bWxfcnVsZSI6IiIsImNvbnRlbnRfcnVsZSI6IjwhLS0gXHU2YjYzXHU2NTg3IC0tPltcdTUxODVcdTViYjldXHJcbjwhLS0gXHU1MjA2XHU0ZWFiIC0tPiIsImNvbnRlbnRfaHRtbF9ydWxlIjoiPHNjcmlwdChbXj5dKik+KC4qKTxcL3NjcmlwdD5bfF1cclxuIiwiY29udGVudF9wYWdlX3N0YXJ0IjoiIiwiY29udGVudF9wYWdlX2VuZCI6IiIsImNvbnRlbnRfcGFnZV9ydWxlIjoiMSIsImNvbnRlbnRfcGFnZSI6IjEiLCJjb250ZW50X25leHRwYWdlIjoiIiwiZG93bl9hdHRhY2htZW50IjoiMCIsIndhdGVybWFyayI6IjAiLCJjb2xsX29yZGVyIjoiMSIsImN1c3RvbWl6ZV9jb25maWciOiJhcnJheSAoXG4pIn0=
大概是用base64编码的规则吧。你可以导入后再进行一点个人的修改。
相关文章推荐
- phpcms采集中的正则中使用中文拼写时注意
- JavaScript:实例讲解使用ES6中默认参数和剩余参数时的注意事项
- 7_21|C语言|操作符注意事项|sizeof使用讲解|结构体简单介绍
- 笔记本使用前注意事项
- 使用UltraWebGrid控件分页功能注意事项
- (To Me Just)c#中的WebBrowser类的使用注意事项!
- 使用Oracle9i数据库的注意事项
- 我也再补充一个NANT使用注意事项
- C++构造函数中使用new时应注意的事项!
- PC端工具箱使用注意事项
- C#使用CDO发送邮件 注意事项!!!
- 关于使用存储过程的一些好处以及注意事项
- 使用CommandBuilder为DataAdaper生成的Command更新数据源时的注意事项!
- 在Linux/Unix中使用错误保留符需注意的事项(2006-02-17)
- 在asp.net 2.0中使用CuteEditor 5.0的一个注意事项
- 在oracle中字段类型LONG的使用注意事项
- response.sendRedirect()使用注意事项
- struts在页面中使用form标记的注意事项
- 在jsp使用标签库的一些注意事项
- _com_util::ConvertStringToBSTR 使用时的注意事项