Lucene.net 搜索引擎技术(Analysis包/token详解)
2005-12-23 13:21
169 查看
在一个朋友的介绍下开始接触lucene,在网上看了大量的资料,觉得搜索引擎的门槛太高,几乎放弃了对他的了解和学习。对于中文的搜索关键是如何创建中文分词!
由于Lucene.Net.Analysis.Cn支持中文分词,我们做一个简单的token事例。
using System;
using System.Collections;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Web;
using System.Web.SessionState;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Web.UI.HtmlControls;
using Lucene;
using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.Net.Analysis.Cn;
namespace websearch
{
/// <summary>
/// Cn_token 的摘要说明。
/// </summary>
public class Cn_token : System.Web.UI.Page
{
private void Page_Load(object sender, System.EventArgs e)
{
// 在此处放置用户代码以初始化页面
String text ="我爱天大,但我更爱中国";
ChineseAnalyzer analyzer = new ChineseAnalyzer();
TokenStream ts = analyzer.TokenStream("dummy",new System.IO.StringReader(text));
Lucene.Net.Analysis.Token token;
try
{
int n=0;
while ( (token = ts.Next()) != null)
{
Response.Write((n++)+"->"+token.TermText()+ " " + token.StartOffset() + " "
+ token.EndOffset() + " "+token.Type()+"<br>");
}
}
catch
{
Response.Write("wrong");
}
}
#region Web 窗体设计器生成的代码
override protected void OnInit(EventArgs e)
{
//
// CODEGEN: 该调用是 ASP.NET Web 窗体设计器所必需的。
//
InitializeComponent();
base.OnInit(e);
}
/// <summary>
/// 设计器支持所需的方法 - 不要使用代码编辑器修改
/// 此方法的内容。
/// </summary>
private void InitializeComponent()
{
this.Load += new System.EventHandler(this.Page_Load);
}
#endregion
}
}
运行一下结果显示
0->我 0 1 word
1->爱 1 2 word
2->天 2 3 word
3->大 3 4 word
4->但 5 6 word
5->我 6 7 word
6->更 7 8 word
7->爱 8 9 word
8->中 9 10 word
9->国 10 11 word
其中逗号被自动过滤掉了
到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器.如何DIY一个功能更加强大Analyzer譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单你只要把他们包装成Lucene的TokenStream就好了.
由于Lucene.Net.Analysis.Cn支持中文分词,我们做一个简单的token事例。
using System;
using System.Collections;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Web;
using System.Web.SessionState;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Web.UI.HtmlControls;
using Lucene;
using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.Net.Analysis.Cn;
namespace websearch
{
/// <summary>
/// Cn_token 的摘要说明。
/// </summary>
public class Cn_token : System.Web.UI.Page
{
private void Page_Load(object sender, System.EventArgs e)
{
// 在此处放置用户代码以初始化页面
String text ="我爱天大,但我更爱中国";
ChineseAnalyzer analyzer = new ChineseAnalyzer();
TokenStream ts = analyzer.TokenStream("dummy",new System.IO.StringReader(text));
Lucene.Net.Analysis.Token token;
try
{
int n=0;
while ( (token = ts.Next()) != null)
{
Response.Write((n++)+"->"+token.TermText()+ " " + token.StartOffset() + " "
+ token.EndOffset() + " "+token.Type()+"<br>");
}
}
catch
{
Response.Write("wrong");
}
}
#region Web 窗体设计器生成的代码
override protected void OnInit(EventArgs e)
{
//
// CODEGEN: 该调用是 ASP.NET Web 窗体设计器所必需的。
//
InitializeComponent();
base.OnInit(e);
}
/// <summary>
/// 设计器支持所需的方法 - 不要使用代码编辑器修改
/// 此方法的内容。
/// </summary>
private void InitializeComponent()
{
this.Load += new System.EventHandler(this.Page_Load);
}
#endregion
}
}
运行一下结果显示
0->我 0 1 word
1->爱 1 2 word
2->天 2 3 word
3->大 3 4 word
4->但 5 6 word
5->我 6 7 word
6->更 7 8 word
7->爱 8 9 word
8->中 9 10 word
9->国 10 11 word
其中逗号被自动过滤掉了
到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器.如何DIY一个功能更加强大Analyzer譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单你只要把他们包装成Lucene的TokenStream就好了.
相关文章推荐
- Lucene.net 搜索引擎技术 及分页
- asp.net,C#,sqlserver,数据库,iis,js,异常,兼容,搜索,性能,备份,编辑器,存取分离,lucene,SEO优化,产品,运营,MVC,三层架构,nhibernate,microsoft,freamwork,网站开发联盟群号:
- 完整的站内搜索Demo(Lucene.Net+盘古分词)
- Lucene.Net 删除索引DeleteDocuments的注意事项
- lucene、lucene.NET详细使用与优化详解
- lucene.net 高级应用之排序、设置权重、优化、分布式搜索
- Lucene.Net
- [转][Lucene.Net] 基本用法
- lucene搜索引擎技术的分析与整理(lucene代码分析)
- 利用Lucene.net搭建站内搜索(1)---了解Lucene.net
- 利用Lucene.net搭建站内搜索 ---Lucene.net
- 利用Lucene.net搭建站内搜索(2)---分词技术
- 利用Lucene.net搭建站内搜索(3)---创建索引
- Lucene.net 系列二 --- index (上)
- lucene.net简单tutorial
- AzureDirectory Library for Lucene.Net(续)
- [Lucene.Net] 基本用法
- Lucene.Net 介绍
- lucene.net常见问题
- Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考