您的位置:首页 > 其它

关于CRF序列标注的一些理解

2016-11-13 17:59 441 查看
关于特征函数个数问题

crf的模板由U模板和B模板组成,故其总的特征函数个数 = U模板对应的特征函数个数 + B模板对应的特征函数个数

U模板对应的特征函数个数为:L*Nu,其中L为标签个数,Nu为从U模板扩展出来的独立字符串的个数

B模板对应的特征函数个数为:L*L*Nb,其中L为标签个数,Nb为从B模板扩展出来的独立字符串的个数

转移概率问题

crf转移概率矩阵T的维度为L*L

转移概率矩阵T的值在crf模型文件中,对应于idB所在位置的连续L*L个权重值。在如下的模型文件中,所对应的位置即为:240~240+5*5-1(L=5)

version: 100
cost-factor: 1
maxid: 5485
xsize: 1

DE
ID
OT
ST
TH

U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
B

240 B
2850 U00:&
195 U00:-
1040 U00:/
4925 U00:2
5105 U00:3
2150 U00:3个
2405 U00:51
2950 U00:;


关于从模板扩展出来的独立字符串前面的ID与权重矩阵的对应关系问题

下面模型文件中的ID从0开始,以L为间隔,标号不断增加。标号ID对应权重矩阵对应位置的L个权重。如:

195 U00:-  // 对应权重矩阵下标为195~199(L=5)


240 B
2850 U00:&
195 U00:-
1040 U00:/
4925 U00:2
5105 U00:3
2150 U00:3个
2405 U00:51
2950 U00:;


未完待续。。。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: