您的位置:首页 > 其它

常用语料库语言学相关软件下载

2013-04-06 20:07 309 查看
常用语料库语言学相关软件下载

1.concapp04 (concapp03的修订版,可支持超大字符集) 软件

下载地址 http://chinese.hust.edu.cn/Concapp04.exe

http://chinese.hust.edu.cn/concapp03.exe ;(concapp03版)

2.Wconcord----语料库分析软件

软件介绍:A slow but very stable concordancer that can create concordances, collocation tables, and frequency lists. Unfortunately, the output is limited to 16,000 lines.

下载地址 http://www.corpus4u.com/down_view.asp?id=1

3.WordSmith Tools 4----语料库分析软件

介绍 Michael Scott's brilliant software.

下载地址 http://www.corpus4u.com/down_view.asp?id=2

4. 中科院计算所汉语词法分析系统ICTCLAS

软件介绍: 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。

下载地址 http://www.ict.ac.cn/freeware/003_ictclas/ictclas.zip

5. 中科院计算所汉语句法分析系统

软件介绍: 本系统是一个概率型的自然语言句法分析器。系统的分析算法是综合了多种优化策略的改进型chart分析算法。分析结果是概率最大的一棵分析树。在概率模型方面,本系统也在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,是的分析结果正确率有了明显提高。本系统运行在windows环境下。

使用说明:系统运行包括两个环节,即build语法环节和parse句子环节。用户首先要调入语法。方式有两种,一是在底部命令行键入 build [grammar file name], 二是点击语法按钮交互式地选择语法文件。之后,只要点击execute按钮即可。分析句子的启动过程类似。分析命令是 parse [sentence file name].

对于句子文件的格式要求是,每行一句,分好词,标记好一级词性。

如:我/r 是/v 学生/n 。/w

用户可以查看到分析树(treeWindow)和分析过程信息(outputWindow)。

下载地址:(1 http://www.ict.ac.cn/freeware/002_prop/propexec.zip

(2 http://www.ict.ac.cn/freeware/002_prop/propsource.zip

6.海量智能分词研究版FAQ

海量智能分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。其中组合歧义的处理一直是分词领域的难点中的难点,海量经过不懈努力,在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量智能分词在实际应用中所表现出的优秀品质。

下载地址:

http://www.hylanda.com/cgi-bin/download/count.asp?id=8&url=1

7.文本文件合并器2.0

下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9

8.CastExe

由上海交通大学开发的类似Wordsmith的检索工具,备注: 此软件有很多不完善的地方,但对于初入门的同学来说也是有一定的帮助的。

下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9

9.TextPro文本处理程序

这是来自中华佛典 http://www2.fodian.net/tools/index.html )。集成了各种文字处理功能,支持各种文字显示,具有文件合并功能,连在文本中加空格的功能也具备了。有了该软件,似乎很多单一功能的软件要下课了。呵呵!

下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9

10.词频分析器

下载地址 http://www.corpus4u.com/down_view.asp?id=9

11.功能强大的文本分析和索引软件Concordance3.2(极力推荐支持超大字符集)

Concordance是文本分析和索引软件,适用于任何需要深入研究文章和分析语言的人士。使用Concordance,你可以建立索引和单词列表,计算单词使用率,比较一个单词的不同用法,分析关键字,查找短语,发布到网站。

下载地址 http://www.concordancesoftware.co.uk/

12.C_Corpus_Res_Final语料库教程 (美国洛杉矶加州大学陶红印教授提供)

下载地址:

http://chinese.hust.edu.cn/Chinese_Corpus_Resource_Guide.pdf

13.四大古典小说语料库下载:

(下载后请用access软件打开,然后搜索相关的内容即可)

红楼梦: http://ling.ccnu.edu.cn/ylk/hlm.mdb

水浒转: http://ling.ccnu.edu.cn/ylk/shz.mdb

西游记: http://ling.ccnu.edu.cn/ylk/xyj.mdb

三国演义: http://ling.ccnu.edu.cn/ylk/sgyy.mdb

14.现代著名小说家作品标注语料库下载

(下载后请用access软件打开,然后搜索相关的内容即可)

下载地址: http://ling.ccnu.edu.cn/ylk/xiandai.htm

15.国内语料库建设一览表

下载地址 http://www.corpus4u.com/down_view.asp?id=8

16.语料库下载,内容如下:

汉英对照古体诗词一百四十五首

计算所机器翻译句法树库

篇章级对齐英汉双语法律语料

双语句对齐语料库(1500句对

北大《人民日报》语料库标注语料举例

北大《人民日报》语料库校对记录

英汉对照例句集(400句

一个小规模汉语树库(1434句

汉英对照例句集(400句

1998年863汉英机器翻译评测试题

《圣经》双语语料库

实验用的数字语音语料库

下载地址: http://www.nlp.org.cn/categories/default.php?cat_id=9

3.XML与关系数据库转换系统 v1.0

 随着XML的迅速发展,XML正在逐步成为Internet中描述数据的标准。由于企业电子商务是以Internet为基础的,因此,在将来XML文档势必成为电子商务中数据传输的主要载体。而目前,大多数企业的数据都不是以XML文档来保存的,在很大程度上,大多数企业是采用传统的关系数据库的形式来存储。于是,如何将现关系数据库数据数据转换为XML文档,以便在Internet上进行传输,是一个非常热门的研究课题。同时,企业为了保持现有的业务处理系统,不希望立即、完全更改现有的数据存储形式。于是,如何将从Internet上获取到的XML文档的内容保存到已有的关系数据库中,也是企业急需解决的一个问题。根据这种需求,研究实现XML与关系库转换系统,实现XML文档与关系数据之间的转换,是一个应用方向十分重要,应用领域十分广阔的系统。XTrans系统起到的是一种中间转换处理单元的作用,也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。系统XTrans提供的功能分布于两个功能模块:映射关系定义模块(XTransStudio)和数据转换处理引擎模块(XTransEngine)。

  映射定义功能模块(XTransStudio)能够帮助用户方便地定义XML文档和关系数据库中关系表的映射关系,在这一图形界面的映射关系定义中,用户能的获取XML文档的结构,同时获取关系数据库中的关系表定义,这样就可以方便的定义XML文档和关系数据表之间的映射关系,并可以讲这些定义的映射关系保存在表示映射关系的特定格式的XML映射关系定义文件中。转换处理引擎功能模块(XTransEngine)能根据XTransStudio定义的映射文件处理相应XML文档和关系数据的转换。也就是说,它可以根据这一映射定义文件定义的映射关系控制执行相应XML文档和关系数据库的双向转换。同时,系统能根据所给出的XML文档的DTD定义,采用固定的算法自动生成一系列关系表,并能进一步生成相应的XML文档与这些关系表的映射关系;此外,本模块还能实现简单的XML文档存储功能,用户只需给定XML文档和相应的DTD,系统就能通过转换将XML文档的内容以关系数据的形式存储到关系数据库中;在获取XML文档时,同样通过转换的形式,从关系数据库中获取相关内容,重新构造XML文档。XML与关系数据库转换系统XTrans起到的是一种中间转换处理单元的作用,它负责桥接内部关系数据和外部的XML通信数据。也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。

下载地址: http://www.ios.ac.cn/Welcome.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: