您的位置：首页 > 其它

中文文本分类语料库-TanCorpV1.0

2012-02-16 21:34 393 查看

转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml
中文文本分类语料库-TanCorpV1.0

谭松波，王月粉

1 语料简介

相比于国际上众多的英文分类语料库而言，本人深感中文分类语料库非常缺乏。因此，建立一个较具规模的中文语料库一直是本人的夙愿。但手工收集上万篇文本确实比较困难，因此收集工作进展较慢。直到最近才告一段落。

本语料库分为两个层次，收集文本14150篇。第一层为12个类别；第二层为60个类别。层次结构及每类样本数如下表：

表1 语料的层次结构

财经	财富	19	汽车	汽车百科	118
金融	267	汽车快讯	258
企业	164	汽车行驶	176
人物	64	汽车政策	38
消费	91	人才	人才创业	39
证券	214	人才管理	412
地域	地域城市	71	人才猎取	39
地域风俗	47	人才履历	39
地域美食	32	人才薪金	40
电脑	电脑病毒	631	人才应试	39
电脑科技	574	体育	篮球	962
电脑软件	426	乒球	112
电脑网络	517	棋牌	50
电脑游戏	102	水上	94
电子商务	693	田径	84
房产	城建	76	网球	131
私宅	433	羽球	55
装修	172	足球	1317
组屋	254	卫生	保健	625
教育	出版	48	两性	335
就业	146	心理	63
考试	173	医药	383
留学	67	艺术	古董艺术	51
培训	21	美学艺术	84
校园	226	文学艺术	153
招生	127	舞台艺术	185
科技	考古科学	183	音乐艺术	73
生命科学	459	娱乐	电影娱乐	499
天文科学	169	音乐娱乐	500
自然科学	229	综艺娱乐	501

2 使用说明

本语料采用词频矩阵的方式给出，其格式采用Han[1-2]定义的格式，Han数据格式包括三个文件，即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料，本人对它进行了扩充，增加了一个文件，x.mat.hlabel。这样就能描述多层语料，并能兼容单层语料。

x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档，具体格式为：词词频，…，词词频；x.mat.rlabel是类别文件，每行一个类别名，对应x.mat中每篇文档的类别，对多层而言，它表示文档的叶子节点类别；x.mat.clabel是词名，也就是字典。字典中每个词语的编号等于它所在行的行号；x.mat.hlabel描述每个类别的层次关系。

预处理采用分词工具ICTCLAS[3]对文档进行分词，并去掉数字与标点符号。

本人欢迎各位业界同行使用本分类语料，并希望用如下方式加以引用：

[1] 谭松波，王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址.

[2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005.

本语料可以作为三个分类语料集使用：

TanCorp-12：单层语料

TanCorp-60：单层语料

TanCorpHier：两层语料

特别声明：本语料仅作学术研究之用，不可用于任何商业用途！

若您有任何问题或建议，请直接跟我联系。

3 算法评测

为了验证语料的有效性，我们采用五种经典的文本分类算法进行评测，即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow；贝叶斯采用多项式模型；SVMTorch采用线性核函数。所有实验都采用三分交叉验证，即把数据集随机划分成三份，每次取其中两份进行训练，一份进行测试，然后把三次分类结果的平均结果作为最终结果。

实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点，这主要是因为TanCorp-60样本分布的严重不均衡性。

表2: 五种分类算法在TanCorp上的最好微平均比较

	中心法	最近邻	Winnow	贝叶斯	SVMTorch
TanCorp-12	0.9053	0.9035	0.8645	0.9157	0.9483
TanCorp-60	0.8057	0.7847	0.7176	0.8069	0.7782

表3: 五种分类算法在TanCorp上的最好宏平均比较

	中心法	最近邻	Winnow	贝叶斯	SVMTorch
TanCorp-12	0.8632	0.8478	0.7587	0.8688	0.9172
TanCorp-60	0.7562	0.7001	0.6684	0.7025	0.7493

　

引用文献：

[1] E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000

[2] E. Han. http://www.cs.umn.edu/˜han/data/tmdata.tar.gz.

[3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70

[4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88.

[5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist.psu.edu/cs.

[6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48.

[7] SVMTorch. http://www.idiap.ch/~bengio/projects/SVMTorch.html.

　

常见问题

1. 我从您的主页上下载了部分语料库，但是系统显示文件是access的快捷方式，文件很大，但是不知道如何打开，使用?

答：不能使用access打开，可以使用UltraEdit打开。

2. 我下载了你主页上的中文语料，解压后在matlab中为什么不能Load?

答：".mat"只是表示该文件存储的是词频矩阵，跟matlab没有关系。

3. 我打开您语料中的.mat文件时有错误，是怎么回事呢？或者您能把它存成其他格式吗，比如.txt文件。

答：可能是因为你采用别的软件来打开它。目前已提供预处理后的txt文件下载。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航