15个免费数据集和命名实体识别NER语料库

什么是命名实体识别(NER)?

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

NER属于从非结构化文本中分类和定位命名实体感情的子任务,其过程是从是非结构化文本表达式中产生专有名词标注信息的命名实体表达式,目前NER有两个显著的问题,即识别和分类。例如,“奥巴马是美国总统”的“奥巴马”和“美国”都代表一个具体事物,因此都是命名实体。而“总统”不代表一个具体事物,因此不是命名实体。

命名实体识别的数据集

用于命名实体识别的注释语料库:用于实体分类的语料库,其具有应用于数据集的自然语言处理的增强和流行特征。

i2b2挑战:通过信息学整合生物学和床边(i2b2)中心,这些临床数据集是为命名实体识别而创建的。

CoNLL 2003:数据集,包含1,393篇英文新闻文章,附带注释实体LOC(位置),ORG(组织),PER(人)和MISC(杂项)。

NLPBA 2004:用蛋白质/ DNA / RNA /细胞系/细胞类型标记的医学数据(2,404 MEDLINE摘要)。

NER的简历实体:文档注释数据集,用于在来自Indeed.com的简历上执行NER。

安然电子邮件:超过500,000封标有姓名,日期和时间的电子邮件。

麻省理工学院电影语料库:BIO格式的语义标记培训和测试语料库。eng语料库是简单查询,而trivia10k13语料库是更复杂的查询。

带注释的GMB语料库:使用GMB(格罗宁根意义库)语料库进行注释的语料库,用于实体分类,通过自然语言处理应用于数据集的增强和流行特征。

Best Buy电子商务NER数据集:包含Best Buy搜索查询的数据集,该搜索查询标记有品牌,型号名称,类别名称等实体。

WNUT 17新兴实体数据集:来自YouTube,Stack Overflow,Twitter和Reddit评论的文本被过滤以优先考虑可能包含命名实体的文本。

命名实体识别的多语言数据集

OntoNotes 5.0:数据集由来自各种来源的1,745k英语,900k中文和300k阿拉伯语文本数据组成:电话交谈,新闻专线,广播新闻,广播对话和网络博客。实体使用PERSON,ORGANIZATION和LOCATION等类别进行注释。

Europeana报纸:荷兰语,法语,德语的命名实体识别语料库,包含新闻文章以及相关元数据和命名实体。

LeNER-Br:巴西葡萄牙语中命名实体识别的数据集,完全由法律文件组成。除了人员,地点,时间实体和组织的标签,以及法律和法律案件实体的标签。

瑞典语NER语料库:从2012年开始引导和手动注释的NER瑞典网络新闻.~8000个句子注释为瑞典语NER(PER,LOC,ORG,MISC)。

奖金多语种数据集

西班牙语数据集

1.2亿字西班牙语语料库:由57种XML格式的文本文件组成,该数据集在每个文本文件中包含多篇维基百科文章。每篇文章的文本都标有关于文章的元数据,以及每篇文章的标题。

中文数据集

中国树库:这个中文数据集包括来自中国新闻,政府文件,杂志文章和在线博客的约150万字。该文本已经过注释和解析。

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%