solr从pdf、office文档中建立索引
2017-04-08 16:02
302 查看
2015年05月28日 ⁄ hadoop ⁄ 评论数 1
更多精彩内容请关注:http://bbs.superwu.cn
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler 这个handler首先要在solrConfig.xml中配置,如下所示:
这里和7.1几乎一样,只不过修改了配置文件名(当然也可以不修改)。 8.2 文档配置tika-data-config.xml
这里只说上面(7.2)没有说过的属性。 · fileName :(必选)使用正则表达式匹配文件 · baseDir : (必选) 文件目录 · recursive : 是否递归的获取文件,默认false · rootEntity :在这里必须是false(除非你只想索引文件名)。在默认情况下,document元素下就是根实体了,如果没有根实体的话,直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行,solr都将生成一个document · dataSource :如果你是用solr1.3,那就必须设为"null",因为它没使用任何dataSourde。不需要在solr1.4中指定它,它只是意味着我们不创建一个dataSource实例。在大多数情况下,只有一个DataSource(JdbcDataSource),当使用FileListEntityProcessor 的时候DataSource不是必须的 · processor:只有当datasource不是RDBMS时才是必须的 · onError :默认是"abort","skip"表示跳过当前文档,"continue"表示对错误视而不见 |
相关文章推荐
- solr从pdf、office文档中建立索引
- solr_对富文本(pdf等)建立索引
- 如何通过Haystack建立pdf文档的全文索引
- solr中为pdf word excel等文档做索引和存诸时如何把回车空格等去掉
- solr6.3从文档建立索引
- office文档转pdf
- C#实现Office文档转Pdf的方法
- openOffice+jodConverter+jquery.media.js在线预览office、pdf、txt等文档
- 如何建立pdf文档
- Solr入门之官方文档6.0阅读笔记系列(九) 第四部分 数据索引操作
- Java利用OpenOffice将word等office文档转换成PDF
- solr文档索引最佳实践
- 使用MSOffice .NET API 将文档(Word \ Excel \ PowerPoint \ Visio \ text \ XML \ RTF \ CSV等)转换为PDF
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- java将office文档pdf文档转换成swf文件在线预览
- 2.myql数据导入到solr,并建立solr索引(学习笔记)
- Java Lucene (5):索引PDF文档
- 利用Solr建立HBase的二级索引
- solr从数据库建立索引
- 这个是微软官方关于office 2007转换pdf等格式的接口调用文档