清华大学开放高质量中文词库

词库简介

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:

  1. 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。
  2. 词库经过多轮人工筛选,保证词库收录的准确性。
  3. 开放更新,将不断更新现有词表,并推出更多类别词表。

该词库可以用于中文自动分词,提升中文分词效果。建议搭配本组研制开发的THULAC工具包使用,提升特定领域中文分词的效果。

词库格式及词频统计语料库

词库每一行由两部分组成,分别是词和DF值(存在此单词的文档个数),中间由Tab间隔。

词频统计语料库:

  1. CSDN博客 时间:2014.07-2016.07 文档数:3785976
  2. 新浪新闻 时间:2008.01-2016.11 文档数:8421097
  3. 搜狗语料 文档数:729008561

词库清单

IT

词表简介:本词表包含了大量IT类词汇。

词条样例:文件备份、虚拟地址、C++编程、事务调度、强连通缩点。

词条数量:16000条

词频统计语料库:CSDN博客

更新时间:2016-12-24

贡献者:马云山、韩世依、张钰晖

下载链接:点此下载

财经

词表简介:本词表包含了大量财经类词汇。

词条样例:年期、调整方案、全面收购、差价、萎缩。

词条数量:3830条

词频统计语料库:新浪新闻

更新时间:2016-12-24

贡献者:韩世依、张钰晖、马云山

下载链接:点此下载

成语

词表简介:本词表包含了大量成语词汇。

词条样例:故作高深、有理有据、用之不竭、人微言轻、因地制宜、求贤若渴。

词条数量:8519条

词频统计语料库:新浪新闻

更新时间:2016-12-24

贡献者:韩世依、张钰晖、马云山

下载链接:点此下载

地名

词表简介:本词表包含了大量地名词汇。

词条样例:浙江、上海、澳大利亚、珠穆朗玛峰、湘潭县、大甲镇。

词条数量:44805条

词频统计语料库:搜狗语料

更新时间:2017-06-01

贡献者:韩世依、张钰晖、马云山

下载链接:点此下载

历史名人

词表简介:本词表包含了大量历史名人类词汇。

词条样例:陆游、荀彧、诸葛亮、孙权、张伯伦。

词条数量:13658条

词频统计语料库:新浪新闻

更新时间:2016-12-24

贡献者:韩世依、张钰晖、马云山

下载链接:点此下载

诗词

词表简介:本词表包含了大量诗词名句。

词条样例:更上一层楼、犹抱琵琶半遮面、路漫漫其修远兮、任尔东西南北风。

词条数量:13703条

词频统计语料库:新浪新闻

更新时间:2017-01-20

贡献者:张钰晖、韩世依、马云山

下载链接:点此下载

医学

词表简介:本词表包含了大量医学类词汇。

词条样例:患者、充血、皮疹、冬虫夏草。

词条数量:18749条

词频统计语料库:新浪新闻

更新时间:2017-01-20

贡献者:张钰晖、韩世依、马云山

下载链接:点此下载

饮食

词库简介:本词库包含了大部分饮食类词汇。

词条样例:土豆、火锅、意大利面、果佳、猴头菇。

词条数量:8974条

词频统计语料库:搜狗语料

更新时间:2017-04-20

贡献者:王盟源、吴佼玉、黄伟杰,林永天

下载链接:点此下载

法律

词库简介:本词库包含了大部分法律类词汇。

词条样例:版权、有关部门、有限责任公司、土地审裁处法官、日本庄园制度。

词条数量:9896条

词频统计语料库:搜狗语料

更新时间:2017-04-28

贡献者:王盟源、吴佼玉、黄伟杰,林永天

下载链接:点此下载

汽车

词库简介:本词库包含了大部分汽车类词汇。

词条样例:轿车、车展、东风本田、前挡风玻璃、四川丰田。

词条数量:1752条

词频统计语料库:搜狗语料

更新时间:2017-05-15

贡献者:王盟源、吴佼玉、黄伟杰,林永天

下载链接:点此下载

动物

词库简介:本词库包含了大部分动物类词汇。

词条样例:信鸽、梅花鹿、街鸽、四方藤、斑尾林鸽。

词条数量:17287条

词频统计语料库:搜狗语料

更新时间:2017-06-01

贡献者:王盟源、吴佼玉、黄伟杰,林永天

下载链接:点此下载

下载地址 http://thuocl.thunlp.org

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%