您的位置:首页 > 编程语言 > PHP开发

phpcms 采集使用讲解与注意事项

2014-11-06 12:09 267 查看
phpcms是国内用的较多的一款内容管理系统网站后台,整体还是比较符合国人的习惯。我在业余时间(费了很多专门时间)试了一下这个后台,

参见 http://www.alongs.tk/cms/ ,当然这个网站做的比较一般,水平如此请见谅。

首先请看 http://down.chinaz.com/try/201203/1732_1.htm,已经大致讲了采集的使用。

1.新建一个采集点

网址类型我这里用的是单一网页。

因为http://roll.sohu.com/money/会在采集网址结果中出现,而我们的目标又不含这个网址,因此把这个网址给排除。

获取网址那一栏必须填,不填采集不到网址。坑爹的phpcms就是不会留空采集全部网址。

这个怎么填呢?用chrome浏览器按F12 审查元素,找到你要采集的网址所在的最近的标志性标签。如下面图示



(1) 在第一条“全国成品没价格指数创最大跌幅” 上点击右键,审查元素,打开下面的框。

(2)在elements中找到这一段上面一点不远处的<div class="list14"> 把它复制出来,可以在上面点击右键,点copy,但是注意复制的是整个div,要粘贴到记事本中,把我们需要的<div class="list14">取出来就可以了。

(3)后面的<div class="pages">同理。



2.在内容规则中输入采集内容的办法

默认是<title>[内容]</title>,采集到的是<title>财经新闻滚动_搜狐资讯-搜狐滚动</title>

因此我们用文章中出现的

<div class="title" title="全国成品油价格指数创最大跌幅-搜狐滚动">
<h1>全国成品油价格指数创最大跌幅</h1>
作为标题来采集,<h1>[内容]</h1>可以可靠地得到标题。



最重要的是下面的内容规则,这关系到文章的内容能否正确地采集到。



同上,我们要对所要采集的目标网页进行分析。

如图示<!-- 正文 -->是文章内容开始的地方,在下面可以看到,文章结束后有一个<!-- 分享 -->

因此就这样设置

<!-- 正文 -->[内容]
<!-- 分享 -->
即可采集到内容,在右侧还有过滤选项,不要看这里面输入的非常麻烦,点击选择,会弹出一个框,进行选择,这里将不需要的脚本给过滤掉。



3.进行测试

点击测试,显示采集到的网址。



右侧有查看,点击可以看采集的内容。



采集的内容,如果出错,则内容或标题为空。



4.设置好以后,就可以进行采集网址,采集内容,导入内容了

在导入的时候要设置导入选项,这个比较简单大家肯定都会。

5.注意事项。

(1)采集经常会失败,就是什么都没采集到。 因为目标网页太复杂,所以尽量选择干净的网页去采集。设置的采集规则要尽量通用。

(2)重要!!! 坑爹的phpcms在这个地方有个bug,如果第一次成功采集,第二次再进行采集的时候会出现

V9第二次采集时出现“没有找到网址列表,请先进行网址采集“的问题。



解决方案请见:

http://bbs.phpcms.cn/thread-444471-1-1.html


摘抄如下:

如果出现些问题,用MYSQL管理工具,清除v9_collection_history这个表的所有内容即可。

不过还有一个小技巧就是,因为你采集一次过后,导出内容后,这些内容就没有啥用了,可以删除了,如果你在后台一页一页删除实在是太麻烦了,也可以直接删除 v9_collection_content 这个表的所有内容即可。

还可以在已导入 中把已导入的全部删除。

附一个导出来的规则,存到txt文件中,可以从后台导入使用。

eyJsYXN0ZGF0ZSI6IjE0MTUxOTMyMzUiLCJzb3VyY2VjaGFyc2V0IjoiZ2JrIiwic291cmNldHlwZSI6IjMiLCJ1cmxwYWdlIjoiaHR0cDpcL1wvcm9sbC5zb2h1LmNvbVwvbW9uZXlcLyIsInBhZ2VzaXplX3N0YXJ0IjoiMSIsInBhZ2VzaXplX2VuZCI6IjEwIiwicGFnZV9iYXNlIjoiIiwicGFyX251bSI6IjEiLCJ1cmxfY29udGFpbiI6IiIsInVybF9leGNlcHQiOiJodHRwOlwvXC9yb2xsLnNvaHUuY29tXC9tb25leVwvIiwidXJsX3N0YXJ0IjoiPGRpdiBjbGFzcz1cImxpc3QxNFwiPiIsInVybF9lbmQiOiI8ZGl2IGNsYXNzPVwicGFnZXNcIj4iLCJ0aXRsZV9ydWxlIjoiPGgxIGl0ZW1wcm9wPVwiaGVhZGxpbmVcIj5bXHU1MTg1XHU1YmI5XTxcL2gxPiIsInRpdGxlX2h0bWxfcnVsZSI6IiIsImF1dGhvcl9ydWxlIjoiIiwiYXV0aG9yX2h0bWxfcnVsZSI6IiIsImNvbWVmb3JtX3J1bGUiOiIiLCJjb21lZm9ybV9odG1sX3J1bGUiOiIiLCJ0aW1lX3J1bGUiOiIiLCJ0aW1lX2h0bWxfcnVsZSI6IiIsImNvbnRlbnRfcnVsZSI6IjwhLS0gXHU2YjYzXHU2NTg3IC0tPltcdTUxODVcdTViYjldXHJcbjwhLS0gXHU1MjA2XHU0ZWFiIC0tPiIsImNvbnRlbnRfaHRtbF9ydWxlIjoiPHNjcmlwdChbXj5dKik+KC4qKTxcL3NjcmlwdD5bfF1cclxuIiwiY29udGVudF9wYWdlX3N0YXJ0IjoiIiwiY29udGVudF9wYWdlX2VuZCI6IiIsImNvbnRlbnRfcGFnZV9ydWxlIjoiMSIsImNvbnRlbnRfcGFnZSI6IjEiLCJjb250ZW50X25leHRwYWdlIjoiIiwiZG93bl9hdHRhY2htZW50IjoiMCIsIndhdGVybWFyayI6IjAiLCJjb2xsX29yZGVyIjoiMSIsImN1c3RvbWl6ZV9jb25maWciOiJhcnJheSAoXG4pIn0=


大概是用base64编码的规则吧。你可以导入后再进行一点个人的修改。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: