命名实体识别NER和实体识别任务的语料库集合

实体识别的数据集

此存储库包含来自多个域的数据集,这些域使用各种实体类型进行注释,可用于实体识别和命名实体识别(NER)任务。

数据集

下表显示了英语实体识别的数据集列表。数据目录包含有关在何处获取由于许可限制而无法共享的数据集的信息,以及将它们(如有必要)转换为CoNLL 2003格式的代码。下面还列出了其他语言的NER语料库链接。

数据集 执照 参考 可用性等
CONLL 2003 新闻 DUA 桑和梅勒德,2003年 找到
NIST-能源与环境研究所 新闻 没有 NIST 1999 IE-ER NLTK数据
MUC-6 新闻 LDC Grishman和Sundheim,1996年 LDC 2003T13
OntoNotes 5 各个 LDC Weischedel等,2013 LDC 2013T19
BBN 各个 LDC Weischedel和Brunstein,2005年 LDC 2005T33
GMB-1.0.0 各个 没有 Bos等人,2017年 http://gmb.let.rug.nl/data.php
GUM-3.1.0 维基 几个(* 2) 泽尔德斯,2016年 ✔包括在这里
wikigold 维基百科 CC-BY 4.0 Balasuriya等,2009 ✔包括在这里
里特尔 推特 没有 Ritter等,2011 没有拆分火车/测试/开发拆分
BTC 推特 CC-BY 4.0 Derczynski等,2016 ✔包括在这里
WNUT17 社交媒体 CC-BY 4.0 Derczynski等,2017 ✔包括在这里
i2b2-2006 DUA Uzuner等,2007 http://www.i2b2.org
i2b2-2014 DUA Stubbs等,2015 http://www.i2b2.org
的Càdec CSIRO Karimi等,2015 http://data.csiro.au/
ANEM 解剖 CC-BY-SA 3.0 Ohta et al。,2012 ✔包括在这里
MITRestaurant 查询 没有 Liu等,2013a http://groups.csail.mit.edu/sls/
MITMovie 查询 没有 Liu等,2013b http://groups.csail.mit.edu/sls/
MalwareTextDB 恶意软件 没有 Lim等人,2017年 http://www.statnlp.org/
re3d 防御 几个(* 1) DSTL,2017年 ✔包括在这里
SEC-申请 金融 CC-BY 3.0 Alvarado等,2015 ✔包括在这里
部件 机器人 X Costa等,2017 X

许可证

许可证说明:

(1)re3d(“关系和实体提取评估数据集”)包含几个具有不同许可证的数据集。这些是:

  • CC-BY-SA 3.0(维基百科数据集)
  • CC BY-NC 3.0(BBC_Online数据集)
  • CC BY 3.0 AU(Australian_Department_of_Foreign_Affairs数据集)
  • 公共领域(US_State_Department数据集,CENTCOM数据集)
  • 英国开放政府许可证v3.0(UK_Government数据集)
  • Delegation_of_the_European_Union_to_Syria:请参阅 https://eeas.europa.eu/delegations/syria/8157/legal-notice_en
  1. GUM 3.1.0包含三个数据集,包括CC-BY 3.0,CC-BY-SA 3.0和CC-BY-NC-SA 3.0许可证。注释根据CC-BY 4.0获得许可。

可以在相应的子目录中找到每个数据集的更详细的许可证信息。

后来……

NER用其他语言

Lexical Named Entity资源

  • HeiNER:http://heiner.cl.uni-heidelberg.de/index.shtml
  • NECKAr:https://event.ifi.uni-heidelberg.de/ page_id = 530 #Wikidata_NE_dataset

码转换

德语

荷兰人

南非荷兰语

  • NCHLT南非荷兰语命名为实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/299

西班牙语

加泰罗尼亚

  • AnCora(西班牙语,加泰罗尼亚语):http://clic.ub.edu/corpus/en

加利西亚

巴斯克

葡萄牙语

  • HAREM:https://www.linguateca.pt/aval_conjunta/HAREM/harem_ing.html
  • CINTIL语料库:http://cintil.ul.pt/cintilfeatures.html#corpus
  • 维基人:https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500
  • 具有人物实体共同注释的多语言语料库(西班牙语,加利西亚语,葡萄牙语):http//gramatica.usc.es/~marcos/lrec.tar.bz2
  • Bosque 8.0 EAGLES格式:https://gramatica.usc.es/~marcos/resources/corpora_FLpt.tgz
  • LeNER-Br(巴西法律文件):https://cic.unb.br/~teodecampos/LeNER-Br/
  • Paramopama:巴西 - 葡萄牙语命名实体识别语料库

法国

意大利

罗马尼亚

希腊语

  • PANACEA(ENV):http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-env-el
  • PANACEA(LAB):http://panacea-lr.eu/en/info-for-researchers/data-sets/dependency-parsed-corpora/dependency-lab-el

匈牙利

  • 匈牙利命名实体语料库:http: //rgai.inf.u-szeged.hu/index.php?lang = en&page = corp_ne
  • hunnerwiki:http://hlt.sztaki.hu/resources/hunnerwiki.html

捷克

抛光

克罗地亚

斯洛伐克

斯洛文尼亚

乌克兰

塞尔维亚

保加利亚语

  • BulTreeBank(BTB)

丹麦

瑞典

芬兰

爱沙尼亚语

拉脱维亚语和立陶宛语

土耳其

维吾尔

  • 维吾尔语命名为实体关系语料库:https//github.com/kaharjan/UyNeRel(Abiderexiti等,构建维吾尔语命名实体关系语料库的注释方案.IALP 2016)

亚美尼亚

阿姆哈拉语

阿拉伯

波斯语

乌尔都语

  • IJCNLP 2008 SSEAL:http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic = 5
  • UNER数据集(Khan等人,名为实体数据集的Urdu命名实体识别任务,2016)。请访问http://www.iiu.edu.pk/?page_id=5181

印地语

孟加拉

  • FIRE NER 2013(英语,印地语,泰米尔语,马拉雅拉姆语,孟加拉语):http//au-kbc.org/nlp/NER-FIRE2013/
  • IJCNLP 2008 SSEAL:http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic = 5

泰卢固语

马拉

旁遮普

泰米尔人

马拉雅拉姆语

奥里亚语/奥里亚语

  • IJCNLP 2008 SSEAL:http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic = 5

泰国

印度尼西亚

越南

日本

中文

俄语

斯瓦希里

恩德贝勒

  • NCHLT isiNdebele命名实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/306

科萨

  • NCHLT isiXhosa命名实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/312

祖鲁

  • NCHLT isiZulu命名实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/319

塞佩蒂语

  • NCHLT Sepedi命名实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/328

塞索托语

  • NCHLT Sesotho命名为实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/334

茨瓦纳语

  • NCHLT Setswana名为Entity Annotated Corpus:https://repo.sadilar.org/handle/20.500.12185/341

斯瓦蒂语

  • NCHLT Siswati被命名为实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/346

文达

  • NCHLT Tshivenda命名为实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/355

Xitsonga

  • NCHLT Xitsonga命名实体注释语料库:https://repo.sadilar.org/handle/20.500.12185/362

拉丁

可以在这里找到一个很长的列表:http//damien.nouvels.net/resourcesen/corpora.html

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%