14个机器学习的最佳中文数据集

建立多语言机器学习模型的主要挑战之一是收集足够的相关数据。为了提供帮助,这里有一份机器学习项目的最佳中文数据源清单,列出了最佳的公开提供的中文数据集。

中文文本数据集

  • 中文树库:这个树库包含来自中国新闻,政府文件和杂志文章的150万个带注释和已解析文本的单词。
  • 普通话新闻文本:来自语言数据协会的该链接包含来自《人民日报》,新华社和中国国际广播电台的超过2.5亿个中文字符的新闻文本。
  • 腾讯AI实验室的中文单词和短语嵌入语料库:由腾讯发布,该语料库提供了200万个矢量表示形式,可表示超过800万个中文单词和短语。
  • 大规模中文短文本摘要数据集:该语料库由超过200万个实际中文短文本组成,每个文本的作者均给出了简短摘要。

中文OCR和手写数据集

  • 汉字):包含909,818张图像的手写汉字数据集,对应大约10篇新闻文章。
  • 汉字生成器:此字体文件能够生成汉字图像,可用于训练中文OCR系统。
  • 野外文字:使用街景图像,该数据集包含约10,000万个汉字的示例,并由专家在30,000张图片中进行了注释。对于数据集中的每个字符,注释包括其基础字符,其边界框和6个属性。

中文翻译和平行文本数据集

  • 中英文电子邮件:包含电子邮件中的 15,000个中文字符(相当于10,000个单词),以及英文参考翻译。
  • OntoNotes:带注释的语料库,包含各种类型的文本-新闻,对话电话语音,Weblog,Usenet新闻组,广播,脱口秀-用中文,英语和阿拉伯语。
  • NUS语料库:该语料库是为社交媒体文本标准化和翻译而创建的。研究人员从国大英语短信语料库中随机选择了2,000条消息,并将其翻译为正式的中文。
  • 中法文字:此数据集包含《中国广播新闻》大约30,000个字符的法语翻译。
  • GALE第一阶段中文博客平行文本:同样来自最不发达国家,该数据集包含277个中文博客文章,翻译成英文。

中国情感分析数据集

  • Ren-CECps:此数据集包括1,500个博客帖子(1.1万个段落,3.5万个句子),并在文档段落和句子级别标注了情感和情感。
  • Microblog PCU:此数据集来自西安交通大学的研究人员,具有新浪微博上的50,000个帖子,并且包含用户元数据,其中包括关注者信息。
来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%