DKPro Core数据集参考

该文档提供有关DKPro Core DatasetFactory可用数据集的信息 。

数据集工厂自动下载数据集。它维护本地缓存以避免冗余下载。数据集将根据存储在DKPro Core附带的数据集描述中的校验和进行验证,以确保描述与数据集匹配。虽然我们试图保持良好的描述质量,但它们可能并不完美。[ 1 ][ 2 ] 请使用下面文档中描述旁边的GitHub上编辑链接或 问题跟踪器报告/修复您可能会注意到的任何问题。

…更多数据集?

不是 DKPro Core支持的数据集的详尽列表。可以使用DKPro Core支持的格式的任何数据集。有关更多详细信息,请参阅 格式参考。如果您遗漏了列表中的任何数据集,请通过我们的问题跟踪器中的问题告诉我们。您也可以自己创建一个新的数据集描述并提交拉取请求。有关描述新数据集的详细信息,请参阅“ 用户指南”

概观

数据集 语言 编码 执照[ 2 ]
AQMAR阿拉伯语维基百科命名实体语料库 1.0 AR UTF-8 CC-BY-SA 3.0
Alpino2conll 20100114 NL UTF-8 未知
古希腊和拉丁依赖树库(希腊语) 2.1 埃尔 UTF-8 CC-BY-SA 3.0
古希腊和拉丁依赖树库(拉丁文) 2.1 ISO-8859-1 CC-BY-SA 3.0
布朗语料库(TEI XML) 20081013 ISO-8859-1 布朗语料库许可证(?)
CoNLL-2000分块共享任务数据(英文) 20000221 ISO-8859-1 WSJ语料库许可证(?)
CoNLL-2002 NER共享任务数据(荷兰语) 20021107 NL ISO-8859-1 未知
CoNLL-2002 NER共享任务数据(西班牙语) 20020522 ES ISO-8859-1 未知
CoNLL-2006共享任务(葡萄牙语) 20100302 PT UTF-8 FlorestaSintá(c)tica许可证
CoNLL-2009共同任务(加泰罗尼亚语) 2.1 CA UTF-8 GPLv3(?)
CoNLL-2009共享任务(德语) 1.1 UTF-8
CoNLL-2009共同任务(日语) 1.0 JA UTF-8 未知
CoNLL-2009共享任务(西班牙语) 2.1 ES UTF-8 GPLv3(?)
哥本哈根依赖树库 1 DA UTF-8 GPLv2许可
科普特树队 1.0 警察 UTF-8 CC-BY 4.0
深红杉(表面) 7 FR UTF-8 LGPL-LR
英语单词意义和语义角色数据集(WaSR) 1.0 UTF-8 CC-BY-NC-ND 3.0
英语单词意义和语义角色数据集(WaSR) 1.0 UTF-8 CC-BY-NC-ND 3.0
英语单词意义和语义角色数据集(WaSR) 1.0 UTF-8 CC-BY-NC-ND 3.0
FinnTreeBank 3.1 NFI UTF-8 CC-BY 3.0
乔治城大学多层语料库 2.2.0 UTF-8
乔治城大学多层语料库 2.3.2 UTF-8
乔治城大学多层语料库 3.0.0 UTF-8
GermEval 2014命名实体识别共享任务 20140911 UTF-8 CC-BY 4.0
GloVe预训练的矢量 - 维基百科2014 + Gigaword 5 20151025 UTF-8 开放数据共享公共领域奉献和许可(PDDL)
汉堡依赖树库 1.0.1 UTF-8
IULA西班牙语LSP Treebank 1 ES UTF-8 CC-BY 3.0
JOS - jos100k 2.0 SL UTF-8 CC-BY-NC 3.0
MASC-CONLL 20080522 ISO-8859-1 未知
NAIST / NTT TED Treebank 1.0 UTF-8 CC-BY-NC-SA 3.0(?)
德国政治名称实体模型(NEMGP) 0.1 UTF-8 CC-BY-SA 3.0
挪威依赖树库(挪威语Bokmål) 1.01 NB UTF-8 CC0 1.0
挪威依赖树库(挪威尼诺斯克) 1.01 NN UTF-8 CC0 1.0
波兰选区树库 0.5 PL UTF-8 GPL 3.0
波兰依赖银行 0.5 PL UTF-8 GPL 3.0
SETimes.HR依赖树库 1 小时 UTF-8 CC-BY-SA 3.0
SETimes.HR +克罗地亚依赖树库 20160613 小时 UTF-8
斯洛文尼亚依赖树队0.1 0.1 SL UTF-8 SDT CoNLL-X
斯洛文尼亚依赖树队0.4 0.4 SL UTF-8 SDT许可证
Stanford POS Tagger Distsim Clusters 20130608 UTF-8 未知
Talbanken05 DEP 1.1 SV UTF-8 Talbanken05许可证
Talbanken05 DPS 1.1 SV ISO-8859-1 Talbanken05许可证
Talbanken05 FPS 1.1 SV ISO-8859-1 Talbanken05许可证
都灵大学树库 20101122 UTF-8 CC-BY-NC-SA 2.5
Universal Dependencies 1.4 Treebanks 1.4 UTF-8 CC-BY-SA 4.0
乌普萨拉波斯依赖树库 1.3 F A UTF-8 CC-BY 3.0

数据集

AR

AQMAR阿拉伯语维基百科命名实体语料库

在GitHub上编辑

ID aqmar-AR-1.0
1.0
媒体类型 文/ x.org.dkpro.conll-2000
语言 AR
编码 UTF-8
网址 http://www.cs.cmu.edu/~ark/ArabicNER/
归因[ 1 ] 由Behrang Mohit,Nathan Schneider,Rishav Bhowmick,Kemal Oflazer和Noah Smith作为AQMAR项目的一部分。
执照[ 2 ] CC-BY-SA 3.0

描述

28个阿拉伯语维基百科文章中的73,853个令牌为命名实体手工注释。

(此描述已从语料库网站部分复制)。

神器 SHA1
LICENSE.TXT 43f4082fb8432ad86d927bdff687f9406db43d0f
data.zip 4fa2c37d7673bb456c6e382566a091545531d85f

CA

CoNLL-2009共同任务(加泰罗尼亚语)

在GitHub上编辑

ID conll2009-CA
2.1
媒体类型 文/ x.org.dkpro.conll-2009
语言 CA
编码 UTF-8
网址 http://ufal.mff.cuni.cz/conll2009-st/
归因[ 1 ] LluísMàrquez,Ma。AntòniaMartí,MarionaTaulé,Manuel Bertran,Oriol Borrega
执照[ 2 ] GPLv3(?)

描述

这是Ancora语料库的一个子集(请参阅http://clic.ub.edu/ancora),该语料库在CoNLL-2009共享任务中用于提取多种语言的句法和语义依赖关系。

496,672个词汇代币; 训练:390,302; 发展:53,015; 测试:53,355

(此描述已部分复制自语料库附带的README文件)。

该描述表明数据是从Ancora语料库中提取的,但它没有说明从哪个版本。有人可能会认为它来自AnCora Catalan依赖1.0.1。但是,此版本不包含许可证文件。下一个版本是在GPL 3.0下发布的AnCora Catalan 2.0.0。因此,可以得出结论,这些数据也可以在这些条件下使用。
神器 SHA1
data.zip 500cbb81709012cce4d23bfa72d93c320b0b7e6f

警察

科普特树队

在GitHub上编辑

ID coptictb-conll-COP-1.0
1.0
媒体类型 文/ x.org.dkpro.conll 2006
语言 警察
编码 UTF-8
网址 http://copticscriptorium.org
归因[ 1 ] 阿米尔泽尔德斯
执照[ 2 ] CC-BY 4.0

描述

来自Coptic SCRIPTORIUM语料库的Coptic Treebank(http://copticscriptorium.org/)。

神器 SHA1
LICENSE.TXT fc0bdc662ce901ac2c631f9574c9aa8b54ebf8c7
coptic.treebank.conll10 8c363df27408cb14cb42f3869916c1575fe1625a

DA

哥本哈根依赖树库

在GitHub上编辑

ID CDT-conll-DA-1
1
媒体类型 文/ x.org.dkpro.conll 2006
语言 DA
编码 UTF-8
网址 http://mbkromann.github.io/copenhagen-dependency-treebank
归因[1 ] Matthias Trautner Kromann,2003年。丹麦依赖树库和DTAG树库工具。11月14日至15日,第四届树木和语言理论研讨会论文集(TLT 2003),韦克舍。第217-220页。(PDF
执照[2 ] GPLv2许可

描述

版本1(目录“da”)被称为丹麦依赖树库。它在CoNLL 2006上用于依赖解析的共享任务中使用,但后来更新了错误修复和改进的CoNLL转换,其中包括将PAROLE词性标记分解为数字,性别等的基础功能。 )。

(此描述源自语料库README文件)。

神器 SHA1
LICENSE.TXT 4cc77b90af91e615a64ae04893fdffa7939db84c
data.zip 11313d405abb0f268247a2d5420afa413eb244e7

CoNLL-2009共享任务(德语)

在GitHub上编辑

ID conll2009德
1.1
媒体类型 文/ x.org.dkpro.conll-2009
语言
编码 UTF-8
网址 http://ufal.mff.cuni.cz/conll2009-st/
归因[ 1 ] 张毅,塞巴斯蒂安帕多
执照[ 2 ] TIGER语料库许可证SALSA语料库许可证

描述

此数据集包含有关为“多语言中的语法和语义依赖关系”(http://ufal.mff.cuni.cz/conll2009-st/)的CoNLL-2009共享任务提供的德语语料库的基本信息。此分布的数据源自TIGER Treebank和SALSA Corpus,转换为与CoNLL-2009共享任务兼容的语法和语义依赖关系。

(此描述源自语料库附带的README文件)。

神器 SHA1
data.zip ad4c03c3c4e4668c8beb34c399e71f539e6d633d

GermEval 2014命名实体识别共享任务

在GitHub上编辑

ID germeval2014德
20140911
媒体类型 文/ x.org.dkpro.germeval-2014
语言
编码 UTF-8
网址 https://sites.google.com/site/germeval2014ner/
归因[ 1 ] D. Benikova,C。Biemann,M。Reznicek。NoSta-D德语命名实体注释:指南和数据集。LREC 2014年会议记录,冰岛雷克雅未克
执照[ 2 ] CC-BY 4.0

描述

GermEval 2014 NER共享任务基于具有德语命名实体注释的新数据集,具有以下属性:

  • 数据来自德语维基百科和新闻语料库,作为引用集合。
  • 该数据集涵盖超过31,000个句子,对应于超过590,000个令牌。
  • NER注释使用NoSta-D指南,该指南扩展了Tübingen树库指南,使用了四个具有子结构的主要NER类别,并在NE之间注释嵌入,例如[ORG FC Kickers [LOC Darmstadt]]

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT 563e2664fed2ce3e65bd1dd396422f46c5db9040
NER-DE-dev.tsv 70aba5d247f51ec22e0bcc671c7fb325e4ff4277
NER-DE-test.tsv 214deaf091e01567af2e958aac87863bf685342a
NER-DE-train.tsv 7644cb09676050c0a2836e06fa0aeb8509b9e1cb

汉堡依赖树库

在GitHub上编辑

ID HDT-DE-conll-1.0.1
1.0.1
媒体类型 文/ x.org.dkpro.conll 2006
语言
编码 UTF-8
网址 https://corpora.uni-hamburg.de/drupal/de/islandora/object/treebank:hdt
归因[ 1 ] 沃尔夫冈门泽尔
执照[ 2 ] CC-BY-SA 4.0HZSK-ACA

描述

包含德国技术新闻网站www.heise.de的注释文本。

执照 评论
CC-BY-SA 4.0 注解
HZSK-ACA 文本
神器 SHA1
LICENSE-CC-BY-SA.txt 8f551a766d1f4556d1a2596365c0fc2191366efa
许可证HZSK-ACA.txt 产生
hamburgDepTreebank.tar.xz 6594e5cd48966db7dac04f2b5ff948eb2bcadf37

德国政治名称实体模型(NEMGP)

在GitHub上编辑

ID nemgp-DE-0.1
0.1
媒体类型 未知
语言
编码 UTF-8
网址 http://www.thomas-zastrow.de/nlp/
归因[ 1 ] 托马斯扎斯特罗
执照[ 2 ] CC-BY-SA 3.0

描述

德国政治的命名实体模型(NEMGP)是来自维基百科和维基新闻的文本集合,用命名实体信息手动注释。

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT fb41626a3005c2b6e14b8b3f5d9d0b19b5faaa51
data.zip f2a1fd54df9232741a3a1892d1ffb0a4d7205991

埃尔

古希腊和拉丁依赖树库(希腊语)

在GitHub上编辑

ID 英仙座-EL-2.1
2.1
媒体类型 未知
语言 埃尔
编码 UTF-8
网址 https://perseusdl.github.io/treebank_data/
归因[ 1 ] Giuseppe GA Celano,Gregory Crane,Bridget Almas等。
执照[ 2 ] CC-BY-SA 3.0

描述

古希腊和拉丁依赖树库(AGLDT)是古希腊和拉丁语最早的树库。该项目于2006年在塔夫茨大学开始,目前正在莱比锡大学塔夫斯大学进行开发和维护。

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
perseus.zip 140eee6d2e3e83745f95d3d5274d9e965d898980

布朗语料库(TEI XML)

在GitHub上编辑

ID 棕色烯teixml
20081013
媒体类型 应用/亭+ xml的
语言
编码 ISO-8859-1
网址 http://www.nltk.org/nltk_data/
归因[ 1 ] WN Francis和H. Kucera。由Lou Burnard转换为TEI。
执照[ 2 ] 布朗语料库许可证(?)

描述

此版本直接源自

“现代编辑美国英语标准语料库,用于数字计算机。” 作者:WN Francis和H. Kucera(1964年)美国罗得岛布朗大学普罗维登斯语言学系1971年修订,1979年修订和扩大 http://www.hit.uib.no/icame/brown/bcm.html

与NLTK(版本0.9.2)一起分发

(该描述取自语料库附带的README文件)。

我们未找到此数据集中包含的许可证信息。人们可能会认为布朗语料库的TEI版本是在与原始布朗语料库相同的条件下提供的。
神器 SHA1
LICENSE.TXT 产生
brown.zip 1e4eadeb358f6f7e6ac9b3677a82f4353bbe91ed

CoNLL-2000分块共享任务数据(英文)

在GitHub上编辑

ID conll2000恩
20000221
媒体类型 文/ x.org.dkpro.conll-2000
语言
编码 ISO-8859-1
网址 http://www.cnts.ua.ac.be/conll2000/chunking/
归因[ 1 ] 未知
执照[ 2 ] WSJ语料库许可证(?)

描述

这是来自CoNLL-2000文本分块共享任务的数据。该数据由华尔街日报语料库(WSJ)的相同分区组成,作为名词短语分块的广泛使用的数据:第15-18部分作为训练数据(211727个令牌),第20部分作为测试数据(47377个令牌)。数据的注释来自WSJ语料库,由来自荷兰蒂尔堡大学的Sabine Buchholz编写的程序。数据集使用由Brill标记器生成的标记,而不是使用WSJ语料库的词性标记。

(此描述已从语料库网站部分复制)。

我们未找到此数据集的任何许可证信息。但是,由于文本似乎来自WSJ语料库,因此WSJ语料库许可证可能适用于此处。
神器 SHA1
train.txt.gz 9f31cf936554cebf558d07cce923dca0b7f31864
test.txt.gz dc57527f1f60eeafad03da51235185141152f849

英语单词意义和语义角色数据集(WaSR)

在GitHub上编辑

ID wasr-DE-1.00
1.0
媒体类型 文/ x.org.dkpro.conll-2009
语言
编码 UTF-8
网址 https://www.ukp.tu-darmstadt.de/data/semantic-role-resources/knowledge-based-semantic-role-labeling/
归因[1 ] Silvana Hartmann,Judith Eckle-Kohler和Iryna Gurevych。基于链接词汇资源的标签转移生成语义角色标注训练数据。在:计算语言学协会的交易,第一卷。4,不。1,p。(将出现),2016年。(PDF
执照[2 ] CC-BY-NC-ND 3.0

描述

德语框架和角色注释。

(此描述源自语料库附带的README文件)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
data.tar.bz2 b706711ae6fffc94409f80b635595bd45d8c2ece

英语单词意义和语义角色数据集(WaSR)

在GitHub上编辑

ID wasr -1- EN-1.00
1.0
媒体类型 文/ x.org.dkpro.conll-2009
语言
编码 UTF-8
网址 https://www.ukp.tu-darmstadt.de/data/semantic-role-resources/knowledge-based-semantic-role-labeling/
归因[1 ] Silvana Hartmann,Judith Eckle-Kohler和Iryna Gurevych。基于链接词汇资源的标签转移生成语义角色标注训练数据。在:计算语言学协会的交易,第一卷。4,不。1,p。(将出现),2016年。(PDF
执照[2 ] CC-BY-NC-ND 3.0

描述

英语框架和角色注释。

(此描述源自语料库附带的README文件)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
part1.tar.bz2 ef7ccf5cb23da63003bdb19d99b15b0ea2821e55

英语单词意义和语义角色数据集(WaSR)

在GitHub上编辑

ID wasr-XL-EN-1.00
1.0
媒体类型 文/ x.org.dkpro.conll-2009
语言
编码 UTF-8
网址 https://www.ukp.tu-darmstadt.de/data/semantic-role-resources/knowledge-based-semantic-role-labeling/
归因[1 ] Silvana Hartmann,Judith Eckle-Kohler和Iryna Gurevych。基于链接词汇资源的标签转移生成语义角色标注训练数据。在:计算语言学协会的交易,第一卷。4,不。1,p。(将出现),2016年。(PDF
执照[2 ] CC-BY-NC-ND 3.0

描述

英语框架和角色注释。

(此描述源自语料库附带的README文件)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
part1.tar.bz2 ef7ccf5cb23da63003bdb19d99b15b0ea2821e55
part2.tar.bz2 0a9c98cbf1fe02841edf52e963444a7e38986577
part3.tar.bz2 9c0cc79ecab9140f82683d39ed6acb51b148f9f7

乔治城大学多层语料库

在GitHub上编辑

ID 胶烯conll-2.2.0
2.2.0
媒体类型 文/ x.org.dkpro.conll 2006
语言
编码 UTF-8
网址 https://corpling.uis.georgetown.edu/gum/
归因[ 1 ] Zeldes,Amir(2016)“GUM语料库:在课堂中创建多层资源”。语言资源与评估。对于Gum注释团队,请参阅https://corpling.uis.georgetown.edu/gum/
执照[ 2 ] CC-BY 2.5CC-BY-SA 3.0CC-BY-NC-SA 3.0CC-BY 4.0

描述

该数据集包含乔治敦大学多层语料库(GUM)的发布版本,这是一种来自四种文本类型(访谈,新闻,旅行指南,教学文本)的英语文本语料库。语料库是乔治城大学LING-367(计算语料库语言学)课程的一部分。有关更多详细信息,请参阅:http//corpling.uis.georgetown.edu/gum

dep层根据Stanford Dependencies手册提供依赖语法分析。使用Stanford Parser初始生成该层,然后使用Arborator协作语法注释软件手动校正。对于注释项目,我们使用了非折叠依赖项,并删除了标点符号的依赖项。

(此描述源自数据集网站)。

执照 评论
CC-BY 2.5 维基新闻文本(来源:https://en.wikinews.org/wiki/Wikinews:版权所有
CC-BY-SA 3.0 WikiVoyage文本(来源:https://wikimediafoundation.org/wiki/Terms_of_Use )
CC-BY-NC-SA 3.0 WikiVoyage文本(来源:http//www.wikihow.com/wikiHow :Creative-Commons )
CC-BY 4.0 注释(来源:https//corpling.uis.georgetown.edu/gum/
神器 SHA1
gum.zip b17e276998ced83153be605d8157afacf1f10fdc

乔治城大学多层语料库

在GitHub上编辑

ID 胶烯conll-2.3.2
2.3.2
媒体类型 文/ x.org.dkpro.conll 2006
语言
编码 UTF-8
网址 https://corpling.uis.georgetown.edu/gum/
归因[ 1 ] Zeldes,Amir(2016)“GUM语料库:在课堂中创建多层资源”。语言资源与评估。对于Gum注释团队,请参阅https://corpling.uis.georgetown.edu/gum/
执照[ 2 ] CC-BY 2.5CC-BY-SA 3.0CC-BY-NC-SA 3.0CC-BY 4.0

描述

该数据集包含乔治敦大学多层语料库(GUM)的发布版本,这是一种来自四种文本类型(访谈,新闻,旅行指南,教学文本)的英语文本语料库。语料库是乔治城大学LING-367(计算语料库语言学)课程的一部分。有关更多详细信息,请参阅:http//corpling.uis.georgetown.edu/gum

dep层根据Stanford Dependencies手册提供依赖语法分析。使用Stanford Parser初始生成该层,然后使用Arborator协作语法注释软件手动校正。对于注释项目,我们使用了非折叠依赖项,并删除了标点符号的依赖项。

(此描述源自数据集网站)。

执照 评论
CC-BY 2.5 维基新闻文本(来源:https://en.wikinews.org/wiki/Wikinews:版权所有
CC-BY-SA 3.0 WikiVoyage文本(来源:https://wikimediafoundation.org/wiki/Terms_of_Use )
CC-BY-NC-SA 3.0 WikiVoyage文本(来源:http//www.wikihow.com/wikiHow :Creative-Commons )
CC-BY 4.0 注释(来源:https//corpling.uis.georgetown.edu/gum/
神器 SHA1
gum.zip 471c3a35c2a0e9aee4bbff9a9cf05441fce3ef21

乔治城大学多层语料库

在GitHub上编辑

ID 胶烯conll-3.0.0
3.0.0
媒体类型 文/ x.org.dkpro.conll 2006
语言
编码 UTF-8
网址 https://corpling.uis.georgetown.edu/gum/
归因[ 1 ] Zeldes,Amir(2016)“GUM语料库:在课堂中创建多层资源”。语言资源与评估。对于Gum注释团队,请参阅https://corpling.uis.georgetown.edu/gum/
执照[ 2 ] CC-BY 2.5CC-BY-SA 3.0CC-BY-NC-SA 3.0CC-BY 4.0

描述

该数据集包含乔治敦大学多层语料库(GUM)的发布版本,这是一种来自四种文本类型(访谈,新闻,旅行指南,教学文本)的英语文本语料库。语料库是乔治城大学LING-367(计算语料库语言学)课程的一部分。有关更多详细信息,请参阅:http//corpling.uis.georgetown.edu/gum

dep层根据Stanford Dependencies手册提供依赖语法分析。使用Stanford Parser初始生成该层,然后使用Arborator协作语法注释软件手动校正。对于注释项目,我们使用了非折叠依赖项,并删除了标点符号的依赖项。

(此描述源自数据集网站)。

文件的CPOS列包含英语TreeTagger模型使用的扩展POS标记集。POS列包含常规PTB标记集。

执照 评论
CC-BY 2.5 维基新闻文本(来源:https://en.wikinews.org/wiki/Wikinews:版权所有
CC-BY-SA 3.0 WikiVoyage文本(来源:https://wikimediafoundation.org/wiki/Terms_of_Use )
CC-BY-NC-SA 3.0 WikiVoyage文本(来源:http//www.wikihow.com/wikiHow :Creative-Commons )
CC-BY 4.0 注释(来源:https//corpling.uis.georgetown.edu/gum/
神器 SHA1
gum.zip b590dbe3f4ae198ca500618a53491f75c221e98b

GloVe预训练的矢量 - 维基百科2014 + Gigaword 5

在GitHub上编辑

ID glove.6B-ZH-20151025
20151025
媒体类型 未知
语言
编码 UTF-8
网址 https://nlp.stanford.edu/projects/glove/
归因[ 1 ] Jeffrey Pennington,Richard Socher和Christopher D. Manning。2014. GloVe:Word表示的全局向量。
执照[ 2 ] 开放数据共享公共领域奉献和许可(PDDL)

描述

GloVe是一种用于获得单词矢量表示的无监督学习算法。对来自语料库的聚合全局词 - 词共现统计进行训练,并且所得到的表示展示词向量空间的有趣线性子结构。

(此描述源自数据集网站)。

神器 SHA1
glove.6B.zip b64e54f1877d2f735bdd000c1d7d771e25c7dfdc

MASC-CONLL

在GitHub上编辑

ID MASC-conll-ZH-20080522
20080522
媒体类型 文/ x.org.dkpro.conll-2008
语言
编码 ISO-8859-1
网址 http://www.anc.org/data/masc/
归因[ 1 ] 未知
执照[ 2 ] 未知

描述

手动注释子语料库(MASC)包含大约500,000个由开放式美国国家语料库(OANC)提取的当代美国英语书面和口语数据。

一个40K的MASC1数据子集,带有Penn Treebank语法依赖关系的注释和来自NomBank和PropBank的CONLL IOB格式的语义依赖关系。该数据集用于CoNLL 2008关于语法和语义依赖关节解析的共享任务。

(此描述源自数据集网站)。

神器 SHA1
data.zip d9f53a05c659204a3223e901c450fe8ffa5fa9fa

NAIST / NTT TED Treebank

在GitHub上编辑

ID tedtreebank-conll-ZH-1.0
1.0
媒体类型 文/ x.org.dkpro.conll 2006
语言
编码 UTF-8
网址 http://ahclab.naist.jp/resource/tedtreebank/
归因[ 1 ] Graham Neubig,Katsuhito Sudoh,Yusuke Oda,Kevin Duh,Hajime Tsukada,Masaaki Nagata。NAIST-NTT Ted Talk Treebank。在国际口语翻译研讨会(IWSLT)的会议记录中。太浩湖,美国。2014年12月。(PDF)(围兜
执照[ 2 ] CC-BY-NC-SA 3.0(?)

描述

NAIST-NTT Ted Talk Treebank是一个手动注释的TED演讲树库,通过NAIST和NTT CS Lab的联合研究项目创建。所有树库注释都遵循Penn Treebank标准。

(该描述源自语料库中的语料库网站/自述文件)。

该网站未说明CC-BY-SA-NC适用的版本。有人可能会认为版本3.0也用于TED谈话本身。
神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
data.tar.gz 89c6495bd64c4b3e699b4c478b47a0c827ea46ea

Stanford POS Tagger Distsim Clusters

在GitHub上编辑

ID 斯坦福大学egw4-reut-512簇-20130608
20130608
媒体类型 未知
语言
编码 UTF-8
网址 http://nlp.stanford.edu/software/pos-tagger-faq.shtml#distsim
归因[ 1 ] 未知
执照[ 2 ] 未知

描述

分布式相似性聚类,可用于例如Stanford POS标记器。

这些聚类是从较大的未标记文本中提取的特征,它将单词聚类为类似的类。

(此描述源自数据集网站)。

神器 SHA1
egw4-reut.512.clusters 3f1352641a46e985c07d0023c0ada7e5be97e527

Universal Dependencies 1.4 Treebanks

在GitHub上编辑

ID UD-EN-conllu-1.4
1.4
媒体类型 文/ x.org.dkpro.conll-U
语言
编码 UTF-8
网址 https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1827
归因[ 1 ] Silveira,N.,Dozat,T.,De Marneffe,MC,Bowman,SR,Connor,M.,Bauer,J。,&Manning,C。(2014年5月)。英语黄金标准依赖语料库。在LREC(第2897-2904页)。(pdf
执照[ 2 ] CC-BY-SA 4.0

描述

Universal Dependencies是一个旨在为多种语言开发跨语言一致的树库注释的项目,其目标是促进多语言解析器开发,跨语言学习以及从语言类型学角度解析研究。注释方案基于(通用)斯坦福依赖(de Marneffe et al。,2006,2008,2014),Google通用词性标签(Petrov等,2012),以及用于形态句法标签集的Interset中间语(泽曼,2008)。

(此描述源自数据集网站)。

神器 SHA1
data.tgz 1c41c28b000935ffa6c63b9ff17c48e892c56597

ES

CoNLL-2002 NER共享任务数据(西班牙语)

在GitHub上编辑

ID conll2002-ES
20020522
媒体类型 文/ x.org.dkpro.conll-2002
语言 ES
编码 ISO-8859-1
网址 http://www.clips.ua.ac.be/conll2002/ner/
归因[ 1 ] 未知
执照[ 2 ] 未知

描述

这是来自CoNLL-2002共享任务的关于语言无关命名实体识别的数据。西班牙数据是西班牙EFE通讯社提供的新闻线文章的集合。这些文章来自2000年5月。注释由加泰罗尼亚技术大学(UPC)的TALP研究中心(http://www.talp.upc.es/)和语言与计算中心(CLiC,巴塞罗那大学(UB)的http://clic.fil.ub.es/),由欧盟委员会通过NAMIC项目(IST-1999-12392)资助。

(此描述源自语料库附带的README文件)。

神器 SHA1
data.tgz 686ef8fed3125a1d8aefe1351ff0e619fe9c34cb

CoNLL-2009共享任务(西班牙语)

在GitHub上编辑

ID conll2009-ES
2.1
媒体类型 文/ x.org.dkpro.conll-2009
语言 ES
编码 UTF-8
网址 http://ufal.mff.cuni.cz/conll2009-st/
归因[ 1 ] LluísMàrquez,Ma。AntòniaMartí,MarionaTaulé,Manuel Bertran,Oriol Borrega
执照[ 2 ] GPLv3(?)

描述

这是Ancora语料库的一个子集(请参阅http://clic.ub.edu/ancora),该语料库在CoNLL-2009共享任务中用于提取多种语言的句法和语义依赖关系。

528,440个词汇代币; 培训:427,442; 发展:50,368; 测试:50,630

(此描述已部分复制自语料库附带的README文件)。

该描述表明数据是从Ancora语料库中提取的,但它没有说明从哪个版本。有人可能会认为它来自AnCora西班牙语依赖1.0.1。但是,此版本不包含许可证文件。下一个版本是在GPL 3.0下发布的AnCora Catalan 2.0.0。因此,可以得出结论,这些数据也可以在这些条件下使用。
神器 SHA1
data.zip ef36c3369bd05966609b4b13d6bf78884c23ece1

IULA西班牙语LSP Treebank

在GitHub上编辑

ID iulatb-ES-1
1
媒体类型 文/ x.org.dkpro.conll 2006
语言 ES
编码 UTF-8
网址 http://www.iula.upf.edu/recurs01_tbk_uk.htm
归因[1 ] Marimon,蒙特塞拉特; Fisas,Beatriz; Bel,Núria; 阿里亚斯,布兰卡; Vázquez,Silvia; 维瓦尔第,豪尔赫; Torner,Sergi; 维尔加斯,玛塔; Lorente,Mercè(2012)。“IULA树库”,载于“八国语言资源与评估国际会议论文集”(LREC’12)。土耳其伊斯坦布尔:欧洲语言资源协会(ELRA)。页。1920年至1926年。(PDF
执照[2 ] CC-BY 3.0

描述

IULA西班牙语LSP Treebank是一个西班牙语树库,包含42,000个句子的句法注释(近590,000个令牌)。它是在Metanet4U项目(增强欧洲语言基础设施,GA 270893)的框架内开发的。

IULA西班牙LSP树库中的句子是从法律,经济,基因组学,医学和环境领域的书法文本集合中提取的,也是来自新闻界的对比语料库。

(此描述源自语料库网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
data.rar 67e2ce3327501605b7c9f0844cc4982070612222

F A

乌普萨拉波斯依赖树库

在GitHub上编辑

ID UPDT-FA-1.3
1.3
媒体类型 文/ x.org.dkpro.conll 2006
语言 F A
编码 UTF-8
网址 http://stp.lingfil.uu.se/%7Emojgan/UPDT.html
归因[ 1 ] Mojgan Seraji,在Joakim Nivre和Carina Jahani的监督下。
执照[ 2 ] CC-BY 3.0

描述

乌普萨拉波斯依赖树库(UPDT)(Seraji,2015,第5章,第97-146页)是一个基于依赖的语法注释语料库。

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
列车conll.tar.gz 6ace1d1132b121b09d0b88f53749d28a59843cd5
DEV-conll.tar.gz e96a06b399bb1f565e16e49fb4dfe7da241f5d75
测试conll.tar.gz ec79e91413dd2c49883bfbbd1a207f68377ac683

FR

深红杉(表面)

在GitHub上编辑

ID 红杉,冲浪conll-FR-7.0
7
媒体类型 文/ x.org.dkpro.conll 2006
语言 FR
编码 UTF-8
网址 https://deep-sequoia.inria.fr
归因[1 ] Marie Candito,Guy Perrier,Bruno Guillaume,Corentin Ribeyre,KarënFort,DjaméSeddah和Éricdela Clergerie。(2014)红杉法国树库的深层语法注释。PROC。LREC 2014,雷克雅未克,冰岛。
执照[2 ] LGPL-LR

描述

深红杉是法语句子的语料库,用表面和深层句法依赖结构注释。

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT 产生
sequoia.tgz 9f53475f809ef1032a92adedf262226da1615051

小时

SETimes.HR依赖树库

在GitHub上编辑

ID sethr-HR-1
1
媒体类型 文/ x.org.dkpro.conll 2006
语言 小时
编码 UTF-8
网址 http://nlp.ffzg.hr/resources/corpora/setimes-hr/
归因[ 1 ] 未知
执照[ 2 ] CC-BY-SA 3.0

描述

语料库基于SETimes平行语料库的克罗地亚语部分。

(此描述源自语料库网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
setimes.hr.v1.conllx.gz 0faebfe55136692f83dcddd4cf659a8b59655d62

SETimes.HR +克罗地亚依赖树库

在GitHub上编辑

ID sethrplus-HR-20160613
20160613
媒体类型 文/ x.org.dkpro.conll-U
语言 小时
编码 UTF-8
网址 https://github.com/ffnlp/sethr
归因[ 1 ] Agić和Ljubešić(2014)(PDF)(围兜
执照[ 2 ] CC-BY 4.0CC-BY-NC-SA 4.0

描述

树库是努力为FF Zagreb的NLP小组提供克罗地亚语的自由文化语言资源的结果。

(此描述源自语料库网站)。

执照 评论
CC-BY 4.0 SETimes.HR数据集(set.hr.conll)
CC-BY-NC-SA 4.0 web.hr.conll和news.hr.conll数据集
神器 SHA1
LICENSE-CC-BY.txt 563e2664fed2ce3e65bd1dd396422f46c5db9040
LICENSE-CC-BY-NC-SA.txt 5d572362228001e9dbc0c8802f49121ceb78ace2
data.zip a52d13cfa91589c0d93fe0a90333a4f0e997b7cf

都灵大学树库

在GitHub上编辑

ID 啧啧conll-IT-20101122
20101122
媒体类型 文/ x.org.dkpro.conll 2006
语言
编码 UTF-8
网址 http://www.di.unito.it/~tutreeb/treebanks.html
归因[ 1 ] Cristina Bosco,Leonardo Lesmo,Vincenzo Lombardo,Alessandro Mazzei,Livio Robaldo
执照[ 2 ] CC-BY-NC-SA 2.5

描述

TUT是意大利语句子的形态语法注释集合,包括来自不同文本类型和域的文本,以多种注释格式发布。

(此描述源自语料库网站)。

神器 SHA1
NEWS.zip 3d9b22d8ebf533aa1d6d39d417316c30900b9a0e
VEDCH.zip 2278e6e770ddc4a8eea5e045c4a77a5df2ae0977
CODICECIVILE.zip 9cf9c0a9c652b3df6564d1fa0ca97c2d7905faa3
EUDIR.zip 72a6e55627481ff99930b59714cfc0909ccf60e1
WIKI.zip a421f488859324e3e12687b9a3067652248eb8df

JA

CoNLL-2009共同任务(日语)

在GitHub上编辑

ID conll2009-JA
1.0
媒体类型 文/ x.org.dkpro.conll-2009
语言 JA
编码 UTF-8
网址 http://ufal.mff.cuni.cz/conll2009-st/
归因[ 1 ] 川原大辅
执照[ 2 ] 未知

描述

此文件包含有关为“多语言中的语法和语义依赖关系”的CoNLL-2009共享任务提供的日语语料库的基本信息。当前版本对应于训练数据集的发布。

该发行版的数据使用京都大学文本语料库4.0的部分内容。京都大学文本语料库可在http://nlp.kuee.kyoto-u.ac.jp/nl-resource/corpus-e.html免费获取。

(此描述源自语料库附带的README文件)。

神器 SHA1
data.zip 8c96a1eda2527a9ba1bf37dd4125cc6af11e7dd4

古希腊和拉丁依赖树库(拉丁文)

在GitHub上编辑

ID 英仙座-LA-2.1
2.1
媒体类型 未知
语言
编码 ISO-8859-1
网址 https://perseusdl.github.io/treebank_data/
归因[ 1 ] Giuseppe GA Celano,Gregory Crane,Bridget Almas等。
执照[ 2 ] CC-BY-SA 3.0

描述

古希腊和拉丁依赖树库(AGLDT)是古希腊和拉丁语最早的树库。该项目于2006年在塔夫茨大学开始,目前正在莱比锡大学塔夫斯大学进行开发和维护。

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
perseus.zip 140eee6d2e3e83745f95d3d5274d9e965d898980

NB

挪威依赖树库(挪威语Bokmål)

在GitHub上编辑

ID NDT-NB-1.01
1.01
媒体类型 文/ x.org.dkpro.conll 2006
语言 NB
编码 UTF-8
网址 http://www.nb.no/sprakbanken/show?serial=sbr-10
归因[ 1 ] CLARINO NB - Språkbanken
执照[ 2 ] CC0 1.0

描述

挪威依赖树库(NDT)由文本组成,文本由形态特征,句法功能和层次结构手动注释。用于句法注释的形式主义是依赖语法。除了少数例外,语法分析遵循Norsk referensegrammatikk’Norwegian Reference Grammar’。

(此描述源自数据集网站)。

神器 SHA1
LICENSE_NDT.txt a2f433206f421c0d630b3bec5fad01334673b765
20140328_NDT_1-01.tar.gz 97935c225f98119aa94d53f37aa64762cba332f3

NFI

FinnTreeBank

在GitHub上编辑

ID finntb-FI-3.1
3.1
媒体类型 文/ x.org.dkpro.conll 2006
语言 NFI
编码 UTF-8
网址 http://www.ling.helsinki.fi/kieliteknologia/tutkimus/treebank/
归因[ 1 ] 未知
执照[ 2 ] CC-BY 3.0

描述

FinnTreeBank项目正在为芬兰语创建一个树库和一个解析库。本作品采用知识共享署名3.0授权。

树库的第一个和第二个版本是手工注释的,并基于芬兰VISK大型语法中的17.000个模型的表达 - Iso Suomen Kielioppi。来自其他来源的文本的简短样本,例如新闻项目和文献,也可在第二版中获得。基于Europarl和JRC-Aquis的芬兰语解析银行将于2012年6月上市。

(此描述源自数据集网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
ftb3.1.conllx.gz 7c58064bf9995980cea08e84035c0414adc54f06

NL

Alpino2conll

在GitHub上编辑

ID 阿尔皮诺-conll-NL-20100114
20100114
媒体类型 文/ x.org.dkpro.conll 2006
语言 NL
编码 UTF-8
网址 http://www.let.rug.nl/~bplank/alpino2conll/
归因[ 1] 芭芭拉普朗克。改进了统计度量,以评估跨域的自然语言解析器性能。在第七届国际语言资源与评估会议论文集(LREC2010),马耳他瓦莱塔,2010年5月。
执照[ 2] 未知

描述

以荷兰语为CoNLL格式的荷兰语培训和测试数据集。基于Erwin Marsi转换软件的改编版本,数据从Alpino XML转换为CoNLL格式,但PoS标签被自动分配的Alpino标签取代。

(此描述源自语料库网站)。

神器 SHA1
cdb.conll.utf8 11313d405abb0f268247a2d5420afa413eb244e7
conll2006-test.conll 11313d405abb0f268247a2d5420afa413eb244e7

CoNLL-2002 NER共享任务数据(荷兰语)

在GitHub上编辑

ID conll2002-NL
20021107
媒体类型 文/ x.org.dkpro.conll-2002
语言 NL
编码 ISO-8859-1
网址 http://www.clips.ua.ac.be/conll2002/ner/
归因[ 1 ] 未知
执照[ 2 ] 未知

描述

这是来自CoNLL-2002共享任务的关于语言无关命名实体识别的数据。荷兰的数据包括2000年比利时报纸“De Morgen”的四个版本(6月2日,7月1日,8月1日和9月1日)。该数据被注释为安特卫普大学Atranos项目(http://atranos.esat.kuleuven.ac.be/)的一部分。

(此描述源自语料库附带的README文件)。

神器 SHA1
data.tgz 686ef8fed3125a1d8aefe1351ff0e619fe9c34cb

NN

挪威依赖树库(挪威尼诺斯克)

在GitHub上编辑

ID NDT-NN-1.01
1.01
媒体类型 文/ x.org.dkpro.conll 2006
语言 NN
编码 UTF-8
网址 http://www.nb.no/sprakbanken/show?serial=sbr-10
归因[ 1 ] CLARINO NB - Språkbanken
执照[ 2 ] CC0 1.0

描述

挪威依赖树库(NDT)由文本组成,文本由形态特征,句法功能和层次结构手动注释。用于句法注释的形式主义是依赖语法。除了少数例外,语法分析遵循Norsk referensegrammatikk’Norwegian Reference Grammar’。

(此描述源自数据集网站)。

神器 SHA1
LICENSE_NDT.txt a2f433206f421c0d630b3bec5fad01334673b765
20140328_NDT_1-01.tar.gz 97935c225f98119aa94d53f37aa64762cba332f3

PL

波兰选区树库

在GitHub上编辑

ID poltb-PL-0.5
0.5
媒体类型 应用/ x.org.dkpro.tiger + xml的
语言 PL
编码 UTF-8
网址 http://zil.ipipan.waw.pl/Składnica
归因[ 1 ] 未知
执照[ 2 ] GPL 3.0

描述

波兰选区树库(Składnicadrazowa),版本0.5。Tiger XML格式的树仅包含由树木学家选择的解析树(每个句子一种解释)。

(此描述源自语料库网站)。

神器 SHA1
LICENSE.TXT 8624bcdae55baeef00cd11d5dfcfa60f68710a02
poltb-0.5-tiger.xml.gz c8977d436d218b726d657224305bced178071dcf

波兰依赖银行

在GitHub上编辑

ID poldb-PL-0.5
0.5
媒体类型 文/ x.org.dkpro.conll 2006
语言 PL
编码 UTF-8
网址 http://zil.ipipan.waw.pl/Składnica
归因[ 1 ] 未知
执照[ 2 ] GPL 3.0

描述

依赖树库(Składnicagależnościowa),版本0.5,是手动消除歧义的选区树自动转换为依赖结构的结果。

(此描述源自语料库网站)。

神器 SHA1
LICENSE.TXT 8624bcdae55baeef00cd11d5dfcfa60f68710a02
poldb-0.5.conll.gz 187424608e91b271957dabcf140a7274f1c88d63

PT

CoNLL-2006共享任务(葡萄牙语)

在GitHub上编辑

ID conll2006-PT
20100302
媒体类型 文/ x.org.dkpro.conll 2006
语言 PT
编码 UTF-8
网址 http://ilk.uvt.nl/conll/
归因[ 1 ] 戴安娜桑托斯,埃克哈德比克
执照[ 2 ] FlorestaSintá(c)tica许可证

描述

这是CONLL-X共享任务的葡萄牙语部分。它来自Sabine Buchholz的FlorestaSintá(c)tica Bosque 7.3。

(此描述部分源自语料库附带的README文件)。

我们找不到此数据集的许可证信息。人们可能会认为这个数据集的许可证与衍生它的FlorestaSintá(c)tica的许可证相同。
神器 SHA1
的README.txt 7afe672cba645d22fc037d8f6e2bf9d501d0aee6
portuguese_bosque_train.conll 29e630e207c74a42e0d2999193aa25d73f262920
portuguese_bosque_test_blind.conll fabcfbd73a531e21786af9b8233f1a4aa78dfddb
portuguese_bosque_test.conll e399cdc1203df1ff43816f3f934223cb9a625992

SL

JOS - jos100k

在GitHub上编辑

ID jos100k-conll-SL-2.0
2.0
媒体类型 文/ x.org.dkpro.conll 2006
语言 SL
编码 UTF-8
网址 http://nl.ijs.si/jos/jos100k-en.html
归因[ 1] TomažErjavec,DarjaFišer,Simon Krek,Nina Ledinek:JOS语言标记语言斯洛文尼亚语。第七届国际语言资源与评估会议(LREC’10)会议记录,马耳他,2010年。(PDF
执照[ 2] CC-BY-NC 3.0

描述

jos100k语料库包含来自FidaPLUS语料库的100,000个单词的采样段落。它旨在作为斯洛文尼亚的参考注释语料库:其手动验证的注释涵盖三个层次的语言描述。

(此描述源自语料库网站)。

神器 SHA1
LICENSE.TXT da39a3ee5e6b4b0d3255bfef95601890afd80709
data.zip 9f330ffd102cc5d5734fdaecbbf67751c84a1339

斯洛文尼亚依赖树队0.1

在GitHub上编辑

ID SDT-conll-SL-0.1
0.1
媒体类型 文/ x.org.dkpro.conll 2006
语言 SL
编码 UTF-8
网址 http://nl.ijs.si/sdt/
归因[ 1 ] SašoDžeroski,TomažErjavec,Nina Ledinek,Petr Pajas,ZdenekŽabokrtský,AndrejaŽele:走向斯洛文尼亚依赖树库。在第五届国际语言资源和评估会议论文集,LREC’06,2006年5月24日至26日。热那亚。(PDF
执照[ 2 ] SDT CoNLL-X

描述

斯洛文尼亚依赖树库项目建立了一个小的语法注释斯洛文尼亚文本语料库。语料库用依赖性分析进行注释,以布拉格依赖性树库为模型。Slovene Dependency Treebank用Analytic Tree Structures注释,包含并行MULTEXT-East语料库的形态句法注释的Slovene组件的一部分,即G. Orwell小说“1984”的Slovene翻译的前三分之一,包含30,000个单词。

(此描述源自语料库网站)。

神器 SHA1
data.zip 2bd85ad77c35d0c305a6afb7ee092676d5d22a35

斯洛文尼亚依赖树队0.4

在GitHub上编辑

ID SDT-conll-SL-0.4
0.4
媒体类型 文/ x.org.dkpro.conll 2006
语言 SL
编码 UTF-8
网址 http://nl.ijs.si/sdt/
归因[ 1 ] SašoDžeroski,TomažErjavec,Nina Ledinek,Petr Pajas,ZdenekŽabokrtský,AndrejaŽele:走向斯洛文尼亚依赖树库。在第五届国际语言资源和评估会议论文集,LREC’06,2006年5月24日至26日。热那亚。(PDF
执照[ 2 ] SDT许可证

描述

这是斯洛文尼亚依赖树库SDT V0.4的初步发布,其中包含了布拉德依赖树库类似注释的Orwell“1984”斯洛文尼翻译的第一部分,取自MULTEXT-East平行语料库V3.0, cf http://ufal.mff.cuni.cz/pdt/ http://nl.ijs.si/ME/V3/ http://nl.ijs.si/ME/V3/doc/index.html#mtev3 -doc-DIV2,id2305296

(此描述源自语料库网站)。

神器 SHA1
的README.txt d2ac8d9f8b45ceae34ce77f57b354662292bd609
SDT-conll.tbl 16cfa8a20ebf8ed0e4f13c0119c7aa76a2498b1f

SV

Talbanken05 DEP

在GitHub上编辑

ID talkbanken05-DEP-SV-1.1
1.1
媒体类型 文/ x.org.dkpro.conll 2006
语言 SV
编码 UTF-8
网址 http://stp.lingfil.uu.se/%7Enivre/research/Talbanken05.html
归因[ 1 ] Joakim Nivre,Jens Nilsson和Johan Hall(2006)Talbanken05:一个带有短语结构和依赖注释的瑞典树库。在第五届语言资源与评估国际会议论文集(LREC2006),2006年5月24日至26日,意大利热那亚。(pdf
执照[ 2 ] Talbanken05许可证

描述

Talbanken05是Talbanken76的现代化版本,这是一个大约30万字的瑞典树库,于20世纪70年代在隆德大学建造。树库没有保证,但只要对生产材料所做的工作给予适当的信任(在隆德和韦克舍),就可以免费用于研究和教育目的。

Dep:依赖关系结构注释(UTF-8中的CoNLL-X共享任务格式)。

(此描述源自语料库网站)。

神器 SHA1
data.tar.gz bc836ab364ba37522e2989481104bad2eb96a92e

Talbanken05 DPS

在GitHub上编辑

ID talkbanken05-DPS-SV-1.1
1.1
媒体类型 应用/ x.org.dkpro.tiger + xml的
语言 SV
编码 ISO-8859-1
网址 http://stp.lingfil.uu.se/%7Enivre/research/Talbanken05.html
归因[ 1 ] Joakim Nivre,Jens Nilsson和Johan Hall(2006)Talbanken05:一个带有短语结构和依赖注释的瑞典树库。在第五届语言资源与评估国际会议论文集(LREC2006),2006年5月24日至26日,意大利热那亚。(pdf
执照[ 2 ] Talbanken05许可证

描述

Talbanken05是Talbanken76的现代化版本,这是一个大约30万字的瑞典树库,于20世纪70年代在隆德大学建造。树库没有保证,但只要对生产材料所做的工作给予适当的信任(在隆德和韦克舍),就可以免费用于研究和教育目的。

DPS:深化的短语结构注释(ISO-8859-1中的TIGER-XML编码)

(此描述源自语料库网站)。

神器 SHA1
data.tar.gz bc836ab364ba37522e2989481104bad2eb96a92e

Talbanken05 FPS

在GitHub上编辑

ID talkbanken05-FPS-SV-1.1
1.1
媒体类型 应用/ x.org.dkpro.tiger + xml的
语言 SV
编码 ISO-8859-1
网址 http://stp.lingfil.uu.se/%7Enivre/research/Talbanken05.html
归因[ 1 ] Joakim Nivre,Jens Nilsson和Johan Hall(2006)Talbanken05:一个带有短语结构和依赖注释的瑞典树库。在第五届语言资源与评估国际会议论文集(LREC2006),2006年5月24日至26日,意大利热那亚。(pdf
执照[ 2 ] Talbanken05许可证

描述

Talbanken05是Talbanken76的现代化版本,这是一个大约30万字的瑞典树库,于20世纪70年代在隆德大学建造。树库没有保证,但只要对生产材料所做的工作给予适当的信任(在隆德和韦克舍),就可以免费用于研究和教育目的。

FPS:平面短语结构注释(ISO-8859-1中的TIGER-XML编码)

(此描述源自语料库网站)。

神器 SHA1
data.tar.gz bc836ab364ba37522e2989481104bad2eb96a92e
来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%