Nutch:skipped. Content of size 91280 was truncated to 59131
2016-06-10 22:55
369 查看
Nutch在抓取数据时出现以下报错:
xxx skipped. Content of size 91280 was truncated to 59131错误原因:
配置文档中限制了文档的最大字节长度
解决方案:
打开nutch根目录下conf文件夹下的nutch-size.xml
找到
<name>file.content.limit</name>
<value>65536</value>
将value值改大一点,例如6553600
找到
<property>
<name>parser.skip.truncated</name>
<value>true</value>
将value值改成false,改完记得重新ant编译
xxx skipped. Content of size 91280 was truncated to 59131错误原因:
配置文档中限制了文档的最大字节长度
解决方案:
打开nutch根目录下conf文件夹下的nutch-size.xml
找到
<name>file.content.limit</name>
<value>65536</value>
将value值改大一点,例如6553600
找到
<property>
<name>parser.skip.truncated</name>
<value>true</value>
将value值改成false,改完记得重新ant编译
相关文章推荐
- 基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档
- 基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档
- Nutch配置:nutch-default.xml详解
- Nutch2.2.1 笔记一 : 环境准备,将Nutch导入到STS/Eclipase
- Nutch2.2.1 笔记二 : Nutch2.2.1 + Mysql 配置,调试
- Nutch2.2.1 笔记三 : 从Nutch脚本执行来看Nutch的内部执行过程
- 分布式集群环境hadoop1.2.0、hbase0.94.4、zookeeper、elasticsearch搭建
- nutch安装配置运行时,一些常见的错误与解决方法
- win7下MyEclipse装Nutch1.7
- Vim命令小结-指定词统计和提取指定词(正则表达式)
- Nutch1.2增加插件例子
- nutch 插件原理
- Nutch相关框架安装使用最佳指南
- 读取Nutch抓取文件中的Segments中Parse_Text的内容
- Nutch插件加载流程
- 关于nutch1.2 配置到tomcat中搜索不到结果的问题解决
- eclipse中读取nutch爬取的数据内容
- [Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(一)
- [Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(三)
- [Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(四)