中文分词之最短路径法和N最短路径
2017-09-23 23:08
218 查看
考虑到汉语分词存在切分歧义消除和未登录词识别两个主要问题,因此,有专家将分词分成两个阶段:1.用分词算法进行粗分2.对粗分的最好结果进行歧义消除和未登录词识别。
最短路径法是一种自动分词的算法。它将一句话中的字元视为节点,先找出该句子中存在的所有词语,一个词语的两端:词尾字元和词之前一个字之间视为具有连接。(连接权值可以全为1,或者根据语料库中的词频取对数附加权值。)找出从句子头到尾字元中间的最短路径,便完成了分词。
N最短路径是在头到尾所有可能的路径中找出前N个最短路径。也就是N种分词结果作为粗分结果集。
最短路径的求解算法:
Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论,运筹学等等。注意该算法要求图中不存在负权边。
问题描述:在无向图 G=(V,E) 中,假设每条边 E[i] 的长度为 w[i],找到由顶点 V0 到其余各点的最短路径。(单源最短路径)
2.算法描述
1)算法思想:设G=(V,E)是一个带权有向图,把图中顶点集合V分成两组,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有一个源点,以后每求得一条最短路径 , 就将加入到集合S中,直到全部顶点都加入到S中,算法就结束了),第二组为其余未确定最短路径的顶点集合(用U表示),按最短路径长度的递增次序依次把第二组的顶点加入S中。在加入的过程中,总保持从源点v到S中各顶点的最短路径长度不大于从源点v到U中任何顶点的最短路径长度。此外,每个顶点对应一个距离,S中的顶点的距离就是从v到此顶点的最短路径长度,U中的顶点的距离,是从v到此顶点只包括S中的顶点为中间顶点的当前最短路径长度。
2)算法步骤:
a.初始时,S只包含源点,即S={v},v的距离为0。U包含除v外的其他顶点,即:U={其余顶点},若v与U中顶点u有边,则<u,v>正常有权值,若u不是v的出边邻接点,则<u,v>权值为∞。
b.从U中选取一个距离v最小的顶点k,把k,加入S中(该选定的距离就是v到k的最短路径长度)。
c.以k为新考虑的中间点,修改U中各顶点的距离;若从源点v到顶点u的距离(经过顶点k)比原来距离(不经过顶点k)短,则修改顶点u的距离值,修改后的距离值的顶点k的距离加上边上的权。
d.重复步骤b和c直到所有顶点都包含在S中。
执行动画过程如下图
N最短路径是对应Dijkstra算法的简单拓展。改进之处在于:每个节点处记录N个最短路径值,并记录相应路径上的当前节点的前驱。如果同一长度对应多条路径,必须同时记录这些路径上当前节点的前驱,最后通过回溯求出N条最短路径。
最短路径法是一种自动分词的算法。它将一句话中的字元视为节点,先找出该句子中存在的所有词语,一个词语的两端:词尾字元和词之前一个字之间视为具有连接。(连接权值可以全为1,或者根据语料库中的词频取对数附加权值。)找出从句子头到尾字元中间的最短路径,便完成了分词。
N最短路径是在头到尾所有可能的路径中找出前N个最短路径。也就是N种分词结果作为粗分结果集。
最短路径的求解算法:
Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法,在很多专业课程中都作为基本内容有详细的介绍,如数据结构,图论,运筹学等等。注意该算法要求图中不存在负权边。
问题描述:在无向图 G=(V,E) 中,假设每条边 E[i] 的长度为 w[i],找到由顶点 V0 到其余各点的最短路径。(单源最短路径)
2.算法描述
1)算法思想:设G=(V,E)是一个带权有向图,把图中顶点集合V分成两组,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有一个源点,以后每求得一条最短路径 , 就将加入到集合S中,直到全部顶点都加入到S中,算法就结束了),第二组为其余未确定最短路径的顶点集合(用U表示),按最短路径长度的递增次序依次把第二组的顶点加入S中。在加入的过程中,总保持从源点v到S中各顶点的最短路径长度不大于从源点v到U中任何顶点的最短路径长度。此外,每个顶点对应一个距离,S中的顶点的距离就是从v到此顶点的最短路径长度,U中的顶点的距离,是从v到此顶点只包括S中的顶点为中间顶点的当前最短路径长度。
2)算法步骤:
a.初始时,S只包含源点,即S={v},v的距离为0。U包含除v外的其他顶点,即:U={其余顶点},若v与U中顶点u有边,则<u,v>正常有权值,若u不是v的出边邻接点,则<u,v>权值为∞。
b.从U中选取一个距离v最小的顶点k,把k,加入S中(该选定的距离就是v到k的最短路径长度)。
c.以k为新考虑的中间点,修改U中各顶点的距离;若从源点v到顶点u的距离(经过顶点k)比原来距离(不经过顶点k)短,则修改顶点u的距离值,修改后的距离值的顶点k的距离加上边上的权。
d.重复步骤b和c直到所有顶点都包含在S中。
执行动画过程如下图
N最短路径是对应Dijkstra算法的简单拓展。改进之处在于:每个节点处记录N个最短路径值,并记录相应路径上的当前节点的前驱。如果同一长度对应多条路径,必须同时记录这些路径上当前节点的前驱,最后通过回溯求出N条最短路径。
相关文章推荐
- 中文分词预处理之N最短路径法小结
- 中文分词预处理之N最短路径法小结(转)
- solr 扩展中文分词 IKAnalyzer 配置文件路径
- 图论, 1.各种方案的最短路径,最小生成树,拓扑排序, 2.隐式图的搜索,N-皇后问题,数独,马踏棋盘,中文划分,回文划分.
- 图论, 1.各种方案的最短路径,最小生成树,拓扑排序, 2.隐式图的搜索,N-皇后问题,数独,马踏棋盘,中文划分,回文划分.
- N最短路径分词
- 最短路径分词
- N-最短路径分词算法
- N-最短路径分词算法
- ICTCLAS分词系统研究(五)--N最短路径
- 最短路径分词
- 学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论
- NLPIR分词之N-最短路径
- 单源点最短路径
- HDU 1690 多源最短路径 Bus System
- Java开源中文分词类库
- 中文分词文献列表 Bibliography of Chinese Word Segmentation
- Sphinx-for-chines中文分词安装配置及API调用
- Spark的最短路径详解
- source insight中文路径下工程报错的解决办法