词性标注类函数
2013-01-17 15:33
190 查看
class CCoMatrix:public CObject
{
private:
int CorpusSize;//语料规模
int *TagFreqs;//每种词性标记的出现次数,一位数组
int *Matrix;//共现频度矩阵,用一维数组来模拟二维数组
public:
CStringArray *pTags;//词性标记集
CStringArray *pOpenTags;//开放标记集
BOOL Modified;//是否修改过词性标记集或语料库
CString FileName;//存放这个类的数据的文件名
CCoMatrix(){TagFreqs=NULL;Matrix=NULL;}//构造函数
~CCoMatrix(){Clean();}//构析函数
BOOL Ready(){return CorpusSize>0;} //是否已经读入词性标记集和训练语料
double GetCoProb(uchar tag1,uchar tag2);//获取标记转移概率
double GetWordProb(double wtFreq,uchar tag);//获取词语概率
void Create(CStdioFile& tagFile);//创建标记集、矩阵
void Clean();//清除原有内容
void AddCorpus(CStdioFile& trainFile);//增加训练词料
virtual void seriaHze(CArchive& ar);//序列化函数
uchar GetIndexOf(CString tag);//将词性标记转化为序号
CString GetTagOf(uchar i);//将序号转换为词性标记
int GetTagFreq(uchar i);//求某种标记的频度
}
词性标注的基本单位-Span
词性标注的对象是一个词串,我们的标注模型是寻找一条概率成绩最大的路径。
{
private:
int CorpusSize;//语料规模
int *TagFreqs;//每种词性标记的出现次数,一位数组
int *Matrix;//共现频度矩阵,用一维数组来模拟二维数组
public:
CStringArray *pTags;//词性标记集
CStringArray *pOpenTags;//开放标记集
BOOL Modified;//是否修改过词性标记集或语料库
CString FileName;//存放这个类的数据的文件名
CCoMatrix(){TagFreqs=NULL;Matrix=NULL;}//构造函数
~CCoMatrix(){Clean();}//构析函数
BOOL Ready(){return CorpusSize>0;} //是否已经读入词性标记集和训练语料
double GetCoProb(uchar tag1,uchar tag2);//获取标记转移概率
double GetWordProb(double wtFreq,uchar tag);//获取词语概率
void Create(CStdioFile& tagFile);//创建标记集、矩阵
void Clean();//清除原有内容
void AddCorpus(CStdioFile& trainFile);//增加训练词料
virtual void seriaHze(CArchive& ar);//序列化函数
uchar GetIndexOf(CString tag);//将词性标记转化为序号
CString GetTagOf(uchar i);//将序号转换为词性标记
int GetTagFreq(uchar i);//求某种标记的频度
}
词性标注的基本单位-Span
词性标注的对象是一个词串,我们的标注模型是寻找一条概率成绩最大的路径。
相关文章推荐
- ICTCLAS 汉语词性标注集
- 词性标注
- nlp-形式语言与自动机-ch07-自动分词、命名实体识别与词性标注
- jieba分词词性标注含义
- NLTK学习之三:文本分类与构建基于分类的词性标注器
- LTP词性标注
- 词性标注Pos Tagging
- nltk英文词性标注
- 词性标注-隐马尔科夫模型应用
- 通过stanford-postagger对英文单词进行词性标注
- ICTCLAS 汉语词性标注集 中科院
- 文本分词中词语词性标注说明
- HMM在自然语言处理中的应用一:词性标注
- 结巴分词4--词性标注
- NLTK的安装/对象/词库/分词/词性标注/分块
- Stanford Corenlp学习笔记——词性标注
- 实习点滴(3)--以“词性标注”为例理解CRF算法
- nltk 词性标注详解
- 建立一个与词性标注问题相关联的HMM模型
- python词法分析(分词+词性标注)