中文文本分类语料库-TanCorpV1.0
2012-02-16 21:34
393 查看
转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml
中文文本分类语料库-TanCorpV1.0
中文文本分类语料库-TanCorpV1.0
谭松波,王月粉 1 语料简介 相比于国际上众多的英文分类语料库而言,本人深感中文分类语料库非常缺乏。因此,建立一个较具规模的中文语料库一直是本人的夙愿。但手工收集上万篇文本确实比较困难,因此收集工作进展较慢。直到最近才告一段落。 本语料库分为两个层次,收集文本14150篇。第一层为12个类别;第二层为60个类别。层次结构及每类样本数如下表: 表1 语料的层次结构
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2 使用说明 本语料采用词频矩阵的方式给出,其格式采用Han[1-2]定义的格式,Han数据格式包括三个文件,即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料,本人对它进行了扩充,增加了一个文件,x.mat.hlabel。这样就能描述多层语料,并能兼容单层语料。 x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档,具体格式为:词 词频,…,词 词频;x.mat.rlabel是类别文件,每行一个类别名,对应x.mat中每篇文档的类别,对多层而言,它表示文档的叶子节点类别;x.mat.clabel是词名,也就是字典。字典中每个词语的编号等于它所在行的行号;x.mat.hlabel描述每个类别的层次关系。 预处理采用分词工具ICTCLAS[3]对文档进行分词,并去掉数字与标点符号。 本人欢迎各位业界同行使用本分类语料,并希望用如下方式加以引用: [1] 谭松波,王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址. [2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005. 本语料可以作为三个分类语料集使用: TanCorp-12:单层语料 TanCorp-60:单层语料 TanCorpHier:两层语料 特别声明:本语料仅作学术研究之用,不可用于任何商业用途! 若您有任何问题或建议,请直接跟我联系。 3 算法评测 为了验证语料的有效性,我们采用五种经典的文本分类算法进行评测,即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow;贝叶斯采用多项式模型;SVMTorch采用线性核函数。所有实验都采用三分交叉验证,即把数据集随机划分成三份,每次取其中两份进行训练,一份进行测试,然后把三次分类结果的平均结果作为最终结果。 实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点,这主要是因为TanCorp-60样本分布的严重不均衡性。 表2: 五种分类算法在TanCorp上的最好微平均比较
![]() ![]() ![]() ![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
引用文献: [1] E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000 [2] E. Han. http://www.cs.umn.edu/˜han/data/tmdata.tar.gz. [3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70 [4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88. [5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist.psu.edu/cs. [6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48. [7] SVMTorch. http://www.idiap.ch/~bengio/projects/SVMTorch.html. 常见问题 1. 我从您的主页上下载了部分语料库,但是系统显示文件是access的快捷方式,文件很大,但是不知道如何打开,使用? 答:不能使用access打开,可以使用UltraEdit打开。 2. 我下载了你主页上的中文语料,解压后在matlab中为什么不能Load? 答:".mat"只是表示该文件存储的是词频矩阵,跟matlab没有关系。 3. 我打开您语料中的.mat文件时有错误,是怎么回事呢?或者您能把它存成其他格式吗,比如.txt文件。 答:可能是因为你采用别的软件来打开它。目前已提供预处理后的txt文件下载。 |
相关文章推荐
- keras实现aspect level中文文本情感分类-源自EMNLP2016
- 基于svm的中文文本自动分类系统
- Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类为例)
- 如何用Python和机器学习训练中文文本情感分类模型?
- 基于svm的中文文本自动分类系统
- 转载:一个基于概念的中文文本分类模型
- KNN针对中文文本分类
- 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处
- 自然语言处理课程作业 中文文本情感分类
- python 中文文本分类
- 中文文本分类--TF-IDF--朴素贝叶斯-01
- 中文文本分类流程
- 基于svm的中文文本自动分类系统
- LogisticRegression针对中文文本分类
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第49期
- 对搜狗提供的中文语料库进行文本分词过程中的java笔记
- 【NLP】TensorFlow实现CNN用于中文文本分类
- Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类)为例
- CNN在中文文本分类的应用
- 基于svm的中文文本自动分类系统