【分享】20000篇中文事件标注数据(样例)
2014-02-25 14:28
274 查看
数据介绍
包含1万篇新闻及1万篇微博的事件标注结果,可用于事件提取及舆情检测等研究领域。
本数据为该数据的样例。
具体指标
1) 语料范围
11836篇包含事件的新闻:均来自新浪网的热门新闻,包含国内新闻5612篇,财经新闻2387篇,科技新闻2462篇,社会、娱乐、国际、体育及军事新闻1375篇
10010篇包含事件的微博:均来自新浪微博,包括社会类2527篇,娱乐类1879篇,科技类1135篇,法制类903篇,教育类369篇,文化类505篇,经济类594篇,体育类709篇,政治类228篇,环境类244篇,其他类917篇
2) 事件构成
构成要素:每个事件包括6个构成要素:主体(谁发生了什么事件)、客体(谁是受事方)、地点(事件在哪发生的)、时间(什么时候发生的)、起因(为什么会发生这个事件)、过程(事件的相关进展或发展过程如何)
事件描述:包括事件名、事件主题、事件类型、微博类型
数据格式
xml文件格式,每篇微博或新闻均包含一个或多个事件
Date表示微博或新闻的发表时间
Type表示微博还是新闻
Url表示微博或新闻的原始链接
EventClass为事件主题
EventName为事件名
EventType为事件类型
Original为原始微博或新闻内容
Annotated为事件标注结果,其中who代表主体、whom代表客体、where代表地点、when代表时间、why代表起因、how代表过程。因为可能包含多个事件,每个要素后都跟着事件id,如“<who e="" 1"="">”表示是事件1的主体。
WeiboType为微博类型
数据样例
数据下载:http://www.datatang.com/data/45871
数据堂-数据共享服务平台
包含1万篇新闻及1万篇微博的事件标注结果,可用于事件提取及舆情检测等研究领域。
本数据为该数据的样例。
具体指标
1) 语料范围
11836篇包含事件的新闻:均来自新浪网的热门新闻,包含国内新闻5612篇,财经新闻2387篇,科技新闻2462篇,社会、娱乐、国际、体育及军事新闻1375篇
10010篇包含事件的微博:均来自新浪微博,包括社会类2527篇,娱乐类1879篇,科技类1135篇,法制类903篇,教育类369篇,文化类505篇,经济类594篇,体育类709篇,政治类228篇,环境类244篇,其他类917篇
2) 事件构成
构成要素:每个事件包括6个构成要素:主体(谁发生了什么事件)、客体(谁是受事方)、地点(事件在哪发生的)、时间(什么时候发生的)、起因(为什么会发生这个事件)、过程(事件的相关进展或发展过程如何)
事件描述:包括事件名、事件主题、事件类型、微博类型
数据格式
xml文件格式,每篇微博或新闻均包含一个或多个事件
Date表示微博或新闻的发表时间
Type表示微博还是新闻
Url表示微博或新闻的原始链接
EventClass为事件主题
EventName为事件名
EventType为事件类型
Original为原始微博或新闻内容
Annotated为事件标注结果,其中who代表主体、whom代表客体、where代表地点、when代表时间、why代表起因、how代表过程。因为可能包含多个事件,每个要素后都跟着事件id,如“<who e="" 1"="">”表示是事件1的主体。
WeiboType为微博类型
数据样例
数据下载:http://www.datatang.com/data/45871
数据堂-数据共享服务平台
相关文章推荐
- 【CF应用开发大赛】微博社交简历
- 我是运营,我没有假期
- [网络资讯]新浪微博新版三栏布局开放公测
- 开始我觉得新浪微博傻,现在才慢慢明白新浪微博的高瞻远瞩
- DB2数据库的安装
- “传奇”图象数据存储方式
- 修复mysql数据库
- SQLServer 数据导入导出的几种方法小结
- MySQL数据备份之mysqldump的使用详解
- 给你的数据库文件减肥
- 把excel表格里的数据导入sql数据库的两种方法
- 类似新浪网的 弹出视频功能实现代码
- 用文本作数据处理
- 桌面中心(一)创建数据库
- 桌面中心(四)数据显示
- SQL Server Management Studio Express管理器 没有导入导出数据的向导的解决方法
- ASP.NET页面间数据传递的几种方法介绍
- ASP 循环导入导出数据处理 不使用缓存
- 简单几行JS Code实现IE邮件转发新浪微博
- 微博和今日头条的短视频功能浅析