您的位置：首页 > 其它

THUCTC源码解读(二)

2016-05-18 21:24 288 查看

在通过Demo初步了解了THUCTC的用法以后，开始深入探究THUCTC的结构，了解实现方式。只要了解了代码结构，才能了解背后的原理和优化方法，也方便在此基础上做出自己的改进。

THUCTC的主要原理

首先，会将训练文本进行分词处理，然后进行词频统计，通过统计词频和包含该词的文档频率，利用卡方(Chi-Square)检验来选择出特征词，并以此为依据构造文档向量(DocumentVector)，词向量中的每一项均代表一个特征（词），具体的值则为相应的权重，这里一般采用TF-IDF方式，即词的重要性与该文档中该次出现次数成正比，与包含该词的文件频率成反比。在构造完文档向量之后，则将训练和分类的任务交给了现成的库(liblinear或libsvm)。因此，也可以说，THUCTC主要完成的是文档的向量化工作。

Word类

Word类是THUCTC中最基本的类之一，功能很简单，就是存储单词信息，是词典的基本单元

存储的内容有:

id 该词在词典（Lexicon）中的id

name 该词本身，如”中国”

tf 即term frequency，词频，指该词在所有文档中出现次数

df 即document frequency ，文频，指出现该词的文档数

Lexicon类

Lexicon,即词典类，顾名思义，处理与词典相关的操作，其基本组成是Word对象。Lexicon类中的变量有:

Hashtable<Integer, Word> idHash     //从id到Word的映射，能够根据id获得对应Word对象
Hashtable<String, Word> nameHash    //从name到Word的映射，能够根据单词获得对应Word对象
long numDocs        // 处理过的文档数目
boolean locked      // 当词典被锁定时，locked=true 此时无法向词典中加入新Word

Set<Integer> termSet //是一个private项，用于保存一个文档中出现过的单词，用于统计df

在来看Lexicon类中的方法，主要有

[1] public Lexicon()
[2] public Word getWord( int id )
[3] public Word getWord( String name )
[4] public void addDocument ( String [] doc )
[5] public Word [] convertDocument ( String [] doc )
[6] protected Word buildWord ( String termString )
[7] public boolean loadFromFile( File f )
[8] public boolean loadFromInputStream(InputStream input)
[9] public Lexicon map( Map<Integer, Integer> translation )

我们一个个来看。

[1] public Lexicon()

public Lexicon () {
idHash = new Hashtable<Integer, Word>(50000);
nameHash = new Hashtable<String, Word>(50000);
locked = false;
numDocs = 0;
}

构建Lexicon对象的时候，

构建空的idHash和nameHash，容量为50000

将locked设为false, 即可以添加新单词

将numDocs设为0，表示未处理过文档

[2]public Word getWord( int id ), [3] public Word getWord( String name )

public Word getWord( int id ) {
return idHash.get ( id );
}
public Word getWord( String name ) {
return nameHash.get ( name );
}

[2]和[3]可以一起来看，前者是根据id提取出Word，后者根据name提取出Word

[4] public void addDocument ( String [] doc )

这个函数用于处理新文档以更新词典的状态(单词项，tf, df 值等等)

函数的输入doc需要是一个String数组，即此时的文档是分词完毕以后的结果，数组中的每一个字符串都是一个单词

public void addDocument ( String [] doc ) {
termSet.clear(); // 将termSet清空，准备处理新文档
for ( String token : doc ) {
Word t = nameHash.get(token); // 对于每个单词，使用nameHash获取对应Word对象
if ( t == null ) {
if ( locked )
continue;     // 若此时词典中无该单词但是locked=true,则跳过，即不添加新词
t = new Word(); // 若locked=false，则添加新词
t.name = token;
t.id = nameHash.size();
t.tf = 0;
t.df = 0;
nameHash.put(t.name, t); //将新词添加进idHash和nameHash
idHash.put(t.id, t);
}
t.tf += 1;  // 该词的term frequency +1
if ( ! termSet.contains(t.id) ) {
termSet.add(t.id); // 若该文档之前没出现过这个词，则该词的文档频率+1，否则不管
t.df++;
}
}
numDocs ++ ;  // numDocs++ ，表示处理过的文档数增加1
}

[5] public Word [] convertDocument ( String [] doc )

将分词后的文档转化成Word数组。如果出现新词，若locked=true 则更新词典，否则会跳过该新词

public Word [] convertDocument ( String [] doc ) {
Word [] terms = new Word[doc.length];  // 根据doc的长度来建立Word数组
int n = 0;
for ( int i = 0 ; i < doc.length ; i++ ) {
String token = doc[i];
Word t = nameHash.get( token );
if ( t == null ) {
if ( locked )
continue;
t = new Word ();
t.name = token;
t.tf = 1;
t.df = 1;
t.id = nameHash.size();
nameHash.put(t.name, t);
idHash.put(t.id, t);
}
terms[n++] = t; // 到此为止总体跟[4]addDocument比较相似，
//但是要注意当locked=true时，碰到新词是会跳过的
//也就是说，有可能会出现Word向量的长度小于doc长度的情况
}
if ( n < terms.length ) {
Word [] finalterms = new Word
; //这边就是处理上面提到过的情况
for ( int i = 0 ; i < n ; i++ ) {
finalterms[i] = terms[i];
}
terms = finalterms;
}
return terms;
}

[6] protected Word buildWord ( String termString )

这个方法是protected类型，不对外开放，是为下面两个方法loadFromInputStream服务的。

实现了根据一行字符串来新建Word对象的功能

protected Word buildWord ( String termString ) {
// 举例；  26163:附赠:114:94
Word t = null;
String [] parts = termString.split(":"); //将字符串根据';'分割成字符串数组
if ( parts.length == 4 ) {
t = new Word(); // 各项的值分别是: id,name,tf,df
t.id = Integer.parseInt(parts[0]);
t.name = parts[1].replace(COLON_REPLACER, ":");
t.tf = Integer.parseInt(parts[2]);
t.df = Integer.parseInt(parts[3]);
}
return t;
}

[7] public boolean loadFromFile( File f )

这个函数和后面的loadFromInputStream功能类似，都是用于从本地文件中载入之前构造好的词典

这个函数比较简单，先将文件转化成FileInputStream,然后调用[8]loadFromInputStream

public boolean loadFromFile( File f ) {
FileInputStream fis;
try {
fis = new FileInputStream(f); //FileInputStream能将文件转化成字节流
} catch (FileNotFoundException e) {
return false;
}
return loadFromInputStream(fis);
}

[8] public boolean loadFromInputStream(InputStream input)

用于从字节流中载入之前构造好的词典

public boolean loadFromInputStream(InputStream input) {
nameHash.clear();  // 先将之前的nameHash和idHash清空
idHash.clear();
try {
//BufferedReader( InputStreamReader( FileInputStream( File ) ) )
// FileInputStream 能把文件转化成字节流
// InputStreamReader 按照字节读取，一个汉字为2个字节
// BufferedReader 可以整行读取，效率更高
BufferedReader reader =
new BufferedReader( new InputStreamReader( input, "UTF-8") );

String termString;
numDocs = Integer.parseInt(reader.readLine()); //文件中的第一行为numDocs
while ( (termString = reader.readLine()) != null ) {
// lexion 中每一行，分别是id, name, tf, df
Word t = buildWord( termString );  // 调用[6]buildWord方法
if ( t != null ) {
nameHash.put( t.name, t); // 对于每一个词，都存入idHash和nameHash
idHash.put( t.id, t);
}
}
reader.close();   //关闭reader
} catch (UnsupportedEncodingException e) {
return false;
} catch (IOException e) {
return false;
}
return true;
}

[9] public Lexicon map( Map《Integer, Integer》 translation )

用于根据映射表来生成新的词典。

/**
* 紧缩词典，利用一个map把原来编号为key的word变为编号为value的word，去掉不在key
* 中的word
* @param translation 影射表
*/
public Lexicon map( Map<Integer, Integer> translation ) {
// 根据映射表生成新的词典
// 映射表的左边为该词在现有词典中的id
// 映射表的右边为该词在新词典中的id
// 注意，新词典的size只与映射表的长度有关，与旧词典的size无关
Lexicon newlex = new Lexicon();
Hashtable<Integer, Word> newIdHash = new Hashtable<Integer, Word>();
Hashtable<String, Word> newNameHash = new Hashtable<String, Word>();

for ( Entry<Integer, Integer> e : translation.entrySet()){
Word w = idHash.get(e.getKey());
Word nw = (Word) w.clone();
nw.id = e.getValue();
newIdHash.put(nw.id, nw);
newNameHash.put(nw.getName(), nw);
}
newlex.idHash = newIdHash;
newlex.nameHash = newNameHash;
newlex.numDocs = this.numDocs;
return newlex;
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航