推荐一个利用AI梳理互联网的知识引擎

1 Magi 是什么?

Magi 是由 Peak Labs 研发的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。

2 Magi 能做什么?

这个长得很像搜索引擎的网站就是 Magi 的公众版本,但与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。

不妨在 magi.com 尝试搜索一些您关心的事物,或者直接提出问题,Magi 都将竭力为您提供高度聚合的结构化知识结果:

每条信息会用颜色表示其可信度,点击可展开看到 Magi 是从哪些具体来源习得的该知识。

Magi 从零研发了一套互联网搜索引擎,所以 magi.com 同时提供全网规模的普通搜索结果。因此,即使不巧没有结构化结果,您也不会白来。

值得一提的是,上述的学习过程是在无人干预的情况下 7 x 24 小时不间断运行的,实时新闻事件中的知识一般只需要 5 分钟就会被掌握。随着可交叉验证的信息源不断增加,先前学习到的知识的可信度会被重新评估,使结果中的错误被自动纠正。

3 Magi 的使命

目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求。

其根本矛盾在于:读懂自然语言对人类来说不难,但人的精力有限,无法跟上有价值信息的产生速度,也不能保证稳定和客观;机器虽然不知疲倦且速度超群,但面对纷繁复杂的自由文本却难以利用,使得不可估量的价值被埋没于字里行间。

试想一下,假如有一个不断自动更新的数据库,包含着互联网各处的文本信息提取而成的便于程序和算法处理的数据结构,那么也许:

各种语音助手不会再对您说:“对不起,我不清楚。”;商业智能可获得广泛的背景知识来做出更好的判断;金融信息服务的数据收集与验证的效率将显著提升;… …作为公众版本的 magi.com 为人类用户提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识。

4 Magi 的技术

在目前相关领域的尝试中,机器问答终究还是面向人类的服务,依照文本问题给出的文本回答并不能供下游任务直接利用。同时,问答模型本身无论从容量还是更新效率都无法满足规模化的需求,更致命的是模型中的知识存在于由浮点数组成的“黑箱”中,而将这些无法解读和溯源的信息直接呈现给用户并不是最负责任的做法。另外,基于文档检索的方案同样无法满足结构化的需求,在实时线上服务中效率限制会导致其难以评估全部文档来获得全局最优,而且其对用户输入的查询要求较高。

综上所述,Magi团队认为知识提取的重要性远高于单纯地回答问题,主动发现潜在知识并持续提炼修正则显著强于被动地根据输入的问题去匹配结果。让机器去理解语言已经十分困难,而 Magi 更是选择面对其中最复杂的目标:开放领域的互联网文本,去直面规模化和准确度这一组知识工程中的核心矛盾点。

一个简单的句子就包含大量交错重叠的信息,而 Magi 要以整篇文章为单位处理语法松散又充满错误的互联网文本,其难度可想而知。

为了提升信息的利用率,Magi 必须尽可能彻底地从每一段质量参差不齐且主题各异的文本中提取出全部知识。这决定了一切现有的技术方案都不可用:这不再是一个清晰的序列标注问题,交错叠加的关系使得搜索空间爆炸式增长,不受限制的领域还意味着根本没有可用的训练数据。

Magi团队用了多年时间从零设计研发了整个技术堆栈:采用原创 succinct 索引结构的分布式搜索引擎、使用专门设计的 Attention 网络的神经提取系统、不依赖 Headless 浏览器的流式抓取系统、支持混合处理 170 余种语言的自然语言处理管线、… 。与此同时,Magi默默耕耘并收获了独一无二的训练/预训练数据。

这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视;其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果;而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果;…

这些努力共同作用将 Magi 呈现于此。作为独特且具有前瞻性的项目,Magi 的部分数据与相关研究成果将定期公开于 Zenodo 和 arXiv 等平台。

5 Magi 的搜索用法

与其他您习惯使用的搜索引擎类似,Magi 搜索也是通过搜索框发起的。Magi 的搜索过程*您可以在搜索框中输入任何您感兴趣的内容,或者直接在搜索框中提问,之后按回车键,或者点击搜索框右侧的蓝色箭头,Magi 将根据您的输入为您生成对应的结果页。

值得一提的是,如果您在首页停留时间足够长,您将能看到 Magi 的实时学习过程。Magi 会将其正在学习的海量页面中的一部分展示于 Magi 正在学习… 下方,并显示从中学习到的潜在知识。您如果感兴趣的话可以点击学习结果进一步搜索。

Magi 搜索结果的展示

Magi 的搜索结果页是根据您的输入自动生成的。如果 Magi 在自己学习到的知识库中发现可能与您的输入相关的,或者能解决您输入的问题的,或者其他 Magi 认为适合展示给您的知识片段,将以一些特定的形式优先展示给您,以省去您从累牍连篇的网页文本中寻找答案的时间。

直接回答

试试看:狼牙山五壮士班长 / 自旋为零的玻色子 / 流行性脑脊髓膜炎潜伏期

当 Magi 认为一个具有代表性的知识片段能够直接回答您输入的问题,将为您展示“直接回答”类结果:

“直接回答”类结果*

上图中 A 可能为某种人物、事物、事件、概念等,而 B 则是 A 的某种描述。下方会列出该知识片段的部分学习来源,供您参考,并可直接进入查看。

实体

试试看:雅鲁藏布江 / 区块链 / 钱学森

当 Magi 认为一个特定实体(可能是人、事、物、概念等等)最符合您的潜在需求时,将为您展示“实体”类结果,包括该实体的多维度信息。

“实体”类结果*

上图展示的样例中,包括了这个实体的描述、属性、标签、近义项这几个维度。简单介绍一下这几个维度:

  • 描述(D):通常是一段对于这个实体的描述,可能是定义、介绍、宣传语等等。
  • 属性(P):指的是该实体的某项属性,大多情况下可以认为“实体”的相应“属性”是之后颜色标记部分的内容。为了简明,在此类结果展示中,每个属性只会显示单一结果。该属性的更多结果可以通过点击颜色标记内容之后的 … 进行进一步搜索。
  • 标签(T):指该实体可以被分为的门类,各个标签也可以进一步互动,点击展开出学习来源,并可进一步搜索。
  • 近义项(S):指的是该实体其他被广泛认可的名称、别名或非常相近的实体,同样可以点击展开进一步互动。

由于页面篇幅有限,Magi 无法将某一实体的全部信息一次列出,您可输入更具体的查询来直接搜索想了解的内容。

集合

试试看:气体 / 呼吸道传染病 / 共享单车企业

当 Magi 认为有一系列知识片段能够直接回答您的问题,或者与您输入的内容高度相关时,将为您展示一系列知识片段构成的“集合”。“集合”中的每一项都是经 Magi 判断符合一定标准的事物、描述等。

“集合”类结果*

上图中 A 即为下方的各项 a 所满足的同一标准,其中的各项也可以再次点击并展开,它们包含了这一知识片段的部分学习来源以及相应评分,并且可以方便地针对您感兴趣的部分进一步搜索。

展开“集合”中的一个元素*

断言

试试看:合金装备 小岛秀夫 / 八角和大料

当 Magi 认为某种逻辑关系可以回答您的问题,或者与您的输入高度相关时,会展示“断言”类结果:

“断言”类结果*

上图中,A 和 B 之间可能具有一种或多种逻辑关系,即下方的 C 表示的部分。C 部分的各内容均可以再次点击,点击后将展开显示与前图相似的该知识片段的学习来源的信息。

多种结果展示

当 Magi 认为能够回答您的问题和/或满足您输入内容的知识需要用多种方法展示时,会将其认为适合的知识片段全部体现在搜索结果页中,并只展开其中的部分结果。您可以通过点击与未完全展开的结果进行互动。

评分与颜色

细心的您可能注意到了,上述各种结果页面中,右上角都有一个内含分数 R 的环形图标,同时许多页面元素也都有颜色标记。由于互联网信息来源纷繁复杂,各种来源可靠性也良莠不齐,Magi 会综合自身的学习算法、来源数量、来源质量,为相应知识片段打分,并按照可靠程度标记颜色为绿色(较为可靠)、黄色(一般)、红色(尚不足以验证可靠性)。而右上角环形图标内的分数数字 R 表示的是该部分包含的所有知识片段的分数 r 中最高的数值。

还请注意,尽管页面上称作“可信评分”,但该打分是综合了多种因素,经由人工智能评判得出。分数并不完全反映知识片段的真实性,更不代表 Magi、Magi 运营方、来源的内容提供方的立场。该分数也并不具有任何统计意义。

主要学习来源

如果您使用的设备屏幕宽度足够大,Magi 还会在右侧展示左侧知识片段的主要学习来源。您可以通过鼠标悬停在各个学习来源页的链接上来确认该页面具体与哪些知识片段有关。

主要学习来源与知识片段们*

网页搜索结果

在所有知识片段下方(或者当没有知识片段结果展示时),Magi 会提供传统的网页搜索结果,以满足您的多种需求。

*本页中所有样例仅供参考,实际使用中可能有变动,还请注意。

6 Magi 的愿景

Magi 现在还远算不上成熟,但其特性决定了它无穷的可能性和成长空间。

从最棘手的互联网开放领域信息入手,Magi 证明了其作为 the One system to rule them all 的可能性。面对各种领域的文本信息,Magi 的技术方案则从逐项击破跃进到了大一统,这代表着有限到无限的区别。

随着数据量和可信度的不断增长,Magi 将作为知识的 ImageNet 来赋能各行各业。各个专业细分领域的信息提取任务,都可以通过利用少量数据对 Magi 模型进行 fine-tuning 来实现更优的方案。

也许在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的结构化网络将成为通向可解释人工智能的基石。

网址**: https://magi.com**

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%