lucene.net 2.0分析-1-草稿
2007-12-22 10:54
267 查看
lucene.net 是lucene的dotnet版本。
本文就lucene的源码作深入剖析,所采用的版本为lucene.net2.0
关于lucene.net.document和analysisi类。
对于lucene而言,所能识别的文档类型无论之前是什么格式,都将被转化为document,而对于一个document而言,你可以用很多个field来标示他,比如有一个新闻网页,它有url,有标题,有正文内容,有作者等等,你在为这个文档建立索引标示时,你可以创建一个 url field,你可以创建一个title field,你可以创建一个 content fields等等。
确定了哪些field被lucece处理后,你还有确定让lucene如何来处理field,比如对于一个作者field来说,通常情况下,作者名字是一个整体,所以应该indexed(被索引),stored(被存储),untokenized(不被分词),对于title field来说应该indexed ,stored,tokenized,对于content field来说,应该是indexed unstored tokenized.
上面出现了一个新的名词,叫token,什么是token,token就是分词的单位,举一个例子this is a test。这一句有4个单词,可以分析成4个token,事实上token不仅包含了单词的信息,还包含着这个单词的偏移量,出现的位置(position即是语句的第几个单词)等等。
待续
本文就lucene的源码作深入剖析,所采用的版本为lucene.net2.0
关于lucene.net.document和analysisi类。
对于lucene而言,所能识别的文档类型无论之前是什么格式,都将被转化为document,而对于一个document而言,你可以用很多个field来标示他,比如有一个新闻网页,它有url,有标题,有正文内容,有作者等等,你在为这个文档建立索引标示时,你可以创建一个 url field,你可以创建一个title field,你可以创建一个 content fields等等。
确定了哪些field被lucece处理后,你还有确定让lucene如何来处理field,比如对于一个作者field来说,通常情况下,作者名字是一个整体,所以应该indexed(被索引),stored(被存储),untokenized(不被分词),对于title field来说应该indexed ,stored,tokenized,对于content field来说,应该是indexed unstored tokenized.
上面出现了一个新的名词,叫token,什么是token,token就是分词的单位,举一个例子this is a test。这一句有4个单词,可以分析成4个token,事实上token不仅包含了单词的信息,还包含着这个单词的偏移量,出现的位置(position即是语句的第几个单词)等等。
待续
相关文章推荐
- 盘古分词在 Lucene.net 2.9 版本下搜索没有结果的原因分析及盘古分词2.0版本要开发的新功能
- ASP.NET 2.0运行原理及其过程简要分析
- ASP.NET 2.0运行时简要分析
- DRILLNET 2.0------第八章 预防碰撞分析模型
- asp.net 2.0中 FreeTextBox报错的原因分析和解决办法
- asp.net identity(微软首推的身份验证)2.0分析-基于vs2015默认程序
- ASP.NET 2.0运行时简要分析
- asp.net 2.0页面模型的最终形态分析
- (转载)ASP.NET 2.0客户端回调的实现分析 (一)
- ASP.NET 2.0客户端回调的实现分析
- ASP.NET 2.0客户端回调的实现分析
- 使用lucene.net2.0 搜索数据库的例子<转自csdn>
- ASP.NET 2.0运行原理及其过程简要分析
- ASP.NET 2.0客户端回调的实现分析(3)
- ASP.NET 2.0运行原理及其过程简要分析
- lucene.net 2.0 中文分词后语法高亮问题
- (转载)ASP.NET 2.0客户端回调的实现分析 (二)
- DRILLNET 2.0------第二十四章 井涌模拟分析模型
- ASP.NET 2.0 缓存翻译草稿
- ASP.NET 2.0运行时简要分析