您的位置:首页 > 其它

【分享】20000篇中文事件标注数据(样例)

2014-02-25 14:28 274 查看
数据介绍

包含1万篇新闻及1万篇微博的事件标注结果,可用于事件提取及舆情检测等研究领域。

本数据为该数据的样例。

具体指标

1) 语料范围

11836篇包含事件的新闻:均来自新浪网的热门新闻,包含国内新闻5612篇,财经新闻2387篇,科技新闻2462篇,社会、娱乐、国际、体育及军事新闻1375篇

10010篇包含事件的微博:均来自新浪微博,包括社会类2527篇,娱乐类1879篇,科技类1135篇,法制类903篇,教育类369篇,文化类505篇,经济类594篇,体育类709篇,政治类228篇,环境类244篇,其他类917篇

2) 事件构成

构成要素:每个事件包括6个构成要素:主体(谁发生了什么事件)、客体(谁是受事方)、地点(事件在哪发生的)、时间(什么时候发生的)、起因(为什么会发生这个事件)、过程(事件的相关进展或发展过程如何)

事件描述:包括事件名、事件主题、事件类型、微博类型

数据格式

xml文件格式,每篇微博或新闻均包含一个或多个事件

    Date表示微博或新闻的发表时间

    Type表示微博还是新闻

    Url表示微博或新闻的原始链接

    EventClass为事件主题

    EventName为事件名

    EventType为事件类型

    Original为原始微博或新闻内容

    Annotated为事件标注结果,其中who代表主体、whom代表客体、where代表地点、when代表时间、why代表起因、how代表过程。因为可能包含多个事件,每个要素后都跟着事件id,如“<who e="" 1"="">”表示是事件1的主体。

    WeiboType为微博类型

数据样例



数据下载:http://www.datatang.com/data/45871

数据堂-数据共享服务平台
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息