Google为计算机科学研究人员精选数据集列表

为了为更广泛的研究社区做出贡献,Google会定期向各种计算机科学学科的研究人员发布感兴趣的数据。

DiscoFuse

用于训练句子融合模型的6000万个示例的数据集。该数据来自维基百科和体育文章。

打开图像扩展 - 众包

附加图像设置为主要的Open Images数据集,以改善其多样性(地理,文化,人口统计,主题等)。目前由Crowdsource应用程序的用户贡献的~478K图像组成。

打开图片

一个数据集,包含大约900万个URL,这些URL已经注释了超过6000个类别的标签。

MAESTRO

为同步TRACK和组织编辑的MIDI和音频(MAESTRO)是一个数据集,由超过172小时的音乐钢琴演奏组成,在音符标签和音频波形之间精确对齐(~3 ms)。

RealEstate 10K

来自YouTube视频的摄像机轨迹数据集,旨在帮助从事3D计算机视觉,图形和视图合成的研究人员。

维基百科生成数据集

任务是从维基百科页面末尾的参考文献和维基百科主题的前十个搜索结果中生成维基百科文章。

Kaggle数据集

使用我们的浏览器内分析工具Kaggle Kernels,探索,执行,分享和评论任何开放数据集的代码。您还可以以易于阅读的格式下载数据集。

Google Cloud公共数据集

Google Cloud Public Datasets Program托管结构化和非结构化数据的副本,以便用户更轻松地发现,访问和利用云中的公共数据。这些数据集是免费托管的。

QuickDraw的

包含345个类别的5000万个图纸的集合,捕获为带时间戳的向量并标记有元数据。

卡通套

卡通套装是随机的2D卡通头像图像的集合。漫画在10种艺术作品类别,4种颜色类别和4种比例类别中有所不同,总共有1013种可能的组合。我们提供10k和10万套随机选择的漫画和标签属性。

HDR + Burst Photography数据集

全分辨率原始图像的存档在各种场景中突发,以及来自Google的HDR +相机软件的结果进行比较。

AVA数据集

电影中人类行为的时空注释,适用于训练局部动作识别系统。

查询的编排良好

来自Paralex语料库的25,100个查询(Fader et al。,2013)注释了人类对其是否是格式良好的自然语言问题的评级。

WikiAtomicEdits

原子维基百科编辑的数据集,包含句子中连续文本块的插入和删除。该数据集包含8种语言的约4300万次编辑。

WikiSplit

一百万个英语句子,每个句子分成两个句子,共同保留原始含义,从维基百科编辑中提取。

名词动词

该数据集包含自然发生的英语句子,其具有非平凡的名词 - 动词歧义。尽管自2002年以来已经在WSJ Penn Treebank上实现了97&+ 37 +准确度,但英语词性标记经常会出现与名词动词歧义相关的严重错误。这些错误很难量化,并且使得标记对下游任务的帮助不大例如翻译和文本到语音合成。

8亿份文件中的11亿条线索; ClueWeb12

我们使用了ClueWeb语料库并使用Freebase概念ID自动标记了概念和实体,这是实体解析的一个示例。这个数据集非常庞大:近8亿个网页。

关于如何阅读的50,000课:关系提取语料库

维基百科上涉及公众人物的两个关系的人为判断数据集:大约10,000个“出生地”的例子和40,000个“出席或从一个机构毕业”的例子。

AudioSet

AudioSet包含一个全面的声音本体,包含超过600个声音类别和一个超过200万个10秒的YouTube剪辑数据集,这些剪辑是人工注释的声音标签。

孟加拉孟加拉国ASR

Crowd采购孟加拉语[bn-bd]语音数据,旨在建立自动语音识别系统。

孟加拉语TTS

用于构建多扬声器参数化文本到语音系统的孟加拉语[bn-in / bn-bd]数据。

自行车视频

在骑自行车时使用手持式摄像机录制的视频,用于研究从运动中学习3D结构。这款特殊的相机无法稳定。图像帧速率为30fps,分辨率为720×1280。

在Chrome中阻止跨站点文档

从Chrome使用情况数据收集的5个百分比值,表示建议的安全策略将阻止多少个用户请求。该数据集反映了Chrome用户群的操作。

概念标题

一个由~3.3M图像组成的数据集,注释了从网络上收集的字幕,代表了更多种类的样式。

会话英语音频注释

选定的Switchboard和Fisher对话的基于音频的NER注释。

用于链接文本,实体和想法的词典

成对数据库,包含1.75亿个字符串,与750万个概念相关联,带有计数注释。概念是维基百科的文章; 字符串是链接到概念的锚文本跨度。

分发维基百科信息框的编辑历史

维基百科页面中180万个信息框的编辑历史。维基百科上的属性随着时间的推移而变化,其中一些更多。从维基百科中提取准确有用的信息非常重要。

ETA探索痕迹

ETA(探索性测试架构)是一个测试框架,它探索分布式应用程序的执行,寻找由非确定性(如时序和异步)引起的特定事件序列引发的错误。痕迹来自ETA的真实世界探索性测试。

用于多视图学习的YouTube视频中提取的功能

来自一组公共YouTube视频游戏的多个功能系列。视频标有30个类别中的一个,每个类别都有一组相关的视觉,听觉和文本功能。

GAP-共指

GAP是一个性别平衡的数据集,包含8,908个共同标记的(模糊代词,先行名称)对,从维基百科中采样,用于评估实际应用中的共指消解。共指解决是自然语言理解的重要任务,模糊代词的解决是一项长期的挑战。尽管如此,现有的语料库不能捕获足够数量或多样性的模糊代词,以准确地指示模型的实际效用。

Google Cluster Workload Traces

2011年5月,来自12.5k机器Borg单元的每个作业提交,任务分配和资源使用数据的29天跟踪。

谷歌面部表情比较数据集

该数据集由面部图像三元组和注释(由多个人类评估者)组成,其指定每个三元组中的哪两个面在面部表情方面形成最相似的对。

人类浇筑视频

人们从各种容器中倒入各种液体的视频,用于无监督模仿学习的研究。

爪哇ASR

Javanese [jv-id]数据集用于训练自动语音识别系统(ASR)。

爪哇TTS

用于构建多扬声器参数化文本到语音系统的Javnese [jv-id]数据。

高棉TTS

用于构建多扬声器参数化文本到语音系统的高棉[km-kh]数据。

大规模Web字体分析

Alexa Top 1M域上Web字体使用情况的数据集。

LibriTTS

用于TTS研究的大规模英语演讲语料库。

多视图人类倾倒视频

各种各样的人将液体倒入容器中,从多个角度取出,可用于学习倾倒机器人学习的抽象任务的表示。

尼泊尔ASR

Crowd采购了用于构建自动语音识别系统的尼泊尔语[ne-np]语音数据。

尼泊尔TTS

用于构建多扬声器参数化文本到语音系统的尼泊尔[ne-np]数据。

纽约时报注释语料库

纽约时报注释语料库附带的注释,包括解析的Freebase实体ID和标签,表明哪些实体是显着的。访问我们的博客文章了解更多信息。

NSynth

一个大规模和高质量的注释音符数据集。

程序生成的随机对象

用于机器人操作实验的大量程序生成的模拟3D对象。

机器人手臂抓

机器人手臂抓取各种物体的650k尝试集合。数据集包含手臂,夹具和物体的RGB-D视图,以及致动和位置参数。

机器人手臂推动

一系列95k机器人手臂推动各种物体的例子。数据集包含手臂,夹具和物体的RGB-D视图,以及致动和位置参数。

SemCor和Masc文档用NOAD词义注释

流行的MASC和SemCor数据集上的单词感应注释,使用新牛津美国词典中的感官手动注释,以及从NOAD标识符到流行的英语Wordnet词典的映射。

僧伽罗ASR

Crowd采购了用于构建自动语音识别系统的Sinhala [sil-lk]语音数据。

僧伽罗语TTS

用于构建多扬声器参数化文本到语音系统的Sinhala [si-lk]数据。

Sundanese ASR

Sundanese [su-id]数据集用于训练自动语音识别系统(ASR)。

Sund他人TTS

用于构建多扬声器参数化文本到语音系统的Sund他人[su-id]数据。

句法Ngrams随着时间的推移

我们自动分析了Google Books中350万本英语书籍中的3500亿个单词 - 数十亿个独特的树形片段,其中的计数分类为类型。在Ngram Viewer中使用。

普遍依赖树库项目

一组用于多种语言的树库,用基本的斯坦福风格依赖项注释。

什么是Cookin’

与烹饪相关的Youtube视频ID列表,以及标记各种事件(估计)开始和结束的时间戳。

Wikilinks:上下文中的4000万个实体

一个实体解析集,包含指向1000万个网页的指针,其中有4000万个实体,这些实体具有指向维基百科的链接。网页作者插入的链接可用于消除提及的歧义。

维基百科和arXiv相似三胞胎

该数据集允许研究人员在公开可用的页面相似性数据集上比较和评估其文档表示方法。

维基百科多语言开放式关系语料库版本1.0

使用维基百科的61种语言,使用跨语言投影自动提取关系元组语料库。还包括法语,俄语和印地语中的一小组人类注释关系。

WikiReading:维基百科和维基数据上的大规模NLU任务

这是一个公开的自然语言理解(NLU)数据集,有1800万个实例。任务是通过阅读相应维基百科文章的文本来预测来自结构化知识库维基数据的文本值。

单词矢量模型

3M单词和短语的数据集表示为300维嵌入向量; 1.4M freebase机器ID的数据集表示为1000维嵌入向量。

YouTube BoundingBoxes

YouTube-BoundingBoxes是一个视频网址的大型数据集,具有密集采样的高质量单对象边界框注释。所有视频片段都是人工注释的,具有高精度分类和每秒1帧的边界框。

YouTube演讲嘉宾

从GoogleTechTalks频道中选择的视频列表,按发言人分组。

YouTube的-8M

一个大型标记的视频数据集,包含800万个YouTube视频ID,深入的3个功能以及来自4800个视觉实体的不同词汇表的相关标签。

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%