[Nutch]使用LUKE查看Solr的索引文件内容
2016-05-07 17:21
363 查看
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。
运行过程:
![](http://img.blog.csdn.net/20160507152613661)
启动界面:
![](http://img.blog.csdn.net/20160507152649579)
![](http://img.blog.csdn.net/20160507153002600)
选择打开按钮,选择索引路径:
![](http://img.blog.csdn.net/20160507152817269)
![](http://img.blog.csdn.net/20160507153527368)
![](http://img.blog.csdn.net/20160507154059162)
各个字段名称为:
![](http://img.blog.csdn.net/20160507154108792)
总共有811个网页:
![](http://img.blog.csdn.net/20160507162108011)
总共有80468个分词item:
![](http://img.blog.csdn.net/20160507162229997)
![](http://img.blog.csdn.net/20160507154407994)
各个字段的含义如下:
anchor
![](http://img.blog.csdn.net/20160507155353156)
boost
不做索引,没有内容:
![](http://img.blog.csdn.net/20160507155319897)
cache
也不做索引:
![](http://img.blog.csdn.net/20160507155520290)
content
页面的内容:
![](http://img.blog.csdn.net/20160507155734715)
digest
也不做索引:
![](http://img.blog.csdn.net/20160507155907659)
host
从url里面提取的主机信息:
![](http://img.blog.csdn.net/20160507160015328)
id
也是从url中提取出来的:
![](http://img.blog.csdn.net/20160507161036757)
segment
指页面存在哪个segment里面:
![](http://img.blog.csdn.net/20160507161308720)
title
页面的title:
![](http://img.blog.csdn.net/20160507161506738)
tstamp
不做索引:
![](http://img.blog.csdn.net/20160507161930431)
url
分词可以进行搜索的:
![](http://img.blog.csdn.net/20160507161921384)
![](http://img.blog.csdn.net/20160507162612987)
![](http://img.blog.csdn.net/20160507171647485)
在Search栏位,输入:“title:图”,然后选择Search按钮,得到结果:
1. 下载LUKE工具
点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。2. 启动LUKE
下载之后在windows系统上面使用命令行启动LUKE:java -jar lukeall-4.0.0-ALPHA.jar
运行过程:
启动界面:
3. 查看Solr索引
3.1 选择Solr索引的位置
通过点击Browse按钮,会弹出文件夹选择框:选择打开按钮,选择索引路径:
3.2 查看具体内容
选择Solr的所有路径之后,在Path to Index directory对话框中,其他选择都默认,选择OK按钮,即可进入LUKE的主界面,在Overview栏位显示Solr索引的大致内容:4. 内容详解
4.1 Overview
总共有11个索引字段:各个字段名称为:
总共有811个网页:
总共有80468个分词item:
4.2 查看每个字段的内容
选择每个字段,然后选择Show top items按钮,即可在右侧看到详细的Items信息,里面包含了默认的分词信息:各个字段的含义如下:
anchor
boost
不做索引,没有内容:
cache
也不做索引:
content
页面的内容:
digest
也不做索引:
host
从url里面提取的主机信息:
id
也是从url中提取出来的:
segment
指页面存在哪个segment里面:
title
页面的title:
tstamp
不做索引:
url
分词可以进行搜索的:
4.3 Documents
4.4 search
从Overview的title字段里面选择一个分词进行search,选择:图在Search栏位,输入:“title:图”,然后选择Search按钮,得到结果:
相关文章推荐
- 230的16进制
- 斐波那契数列、跳台阶、变态跳台阶、矩形覆盖
- HDU-1394 Minimum Inversion Number 树状数组
- android 获取网络图片生成二维码
- VC2013生成的程序兼容WindowsXP操作系统
- 把检测出的人脸用椭圆和矩形框画出
- html5新增加的input类型元素
- Android Studio分渠道打包
- 多生产者多消费者问题(Lock接口、Condition接口)
- 判断ImageView当前是否使用指定的某一张图片
- 2015-2016 下半学期 第八周 训练
- CodeForces 165A Supercentral Point(水题)
- 单一职责原则
- [android] 手机卫士接收打电话广播显示号码归属地
- prototype中美元符号$的有关用法
- 十进制转化成十六进制i
- HDU 4165 Pills (DP卡特兰数列)
- 几进制的转换
- html5新增加的表单元素-output
- HTML5网页打开摄像头,并拍照