科学研究丨AI4S崛起:如何利用贝多芬和康定斯基加速解锁自然奥秘?

科学研究丨AI4S崛起:如何利用贝多芬和康定斯基加速解锁自然奥秘?

在人工智能技术的迅猛发展中,一个令人振奋的趋势正悄然崛起:AI不仅能在数据驱动的科学领域表现卓越,还能从艺术和人文领域汲取灵感,开辟全新的研究维度。

试想一下,贝多芬的《第九交响曲》如何启发我们理解生物材料的结构?又或是康定斯基的抽象画作如何为复杂科学问题的建模提供灵感?这些跨界联结正揭示出一种全新的科学探索方式——利用AI超越传统学科边界,加速发现的进程。

而根据硅谷科技评论创投库(svtr.ai),AI for Science(AI4S)这一领域应运而生,作为科学研究的加速器,全球60多家高潜力初创公司正在AI的帮助下不断拓展科技的前沿边界,为我们开创了一条通往更深层次理解自然规律的全新路径。

🖼️
图片 2 1260 × 876px

📷 图片包含在完整版文章中,点击文末按钮查看

麻省理工学院(MIT)布勒教授(Markus J. Buehler)便是这一领域的先锋。他将生成式人工智能与材料科学相结合,探索多模态智能推理与图论的应用,通过生成式知识提取驱动科学发现。这种方法不仅为生物材料设计和功能优化提供了新思路,还可能解决AI当前最大的瓶颈之一:如何在复杂问题中实现更强的推理能力和泛化性。

正如Buehler在其2024年的最新研究中指出(文末扫码,获取59页论文原文),生成式AI与图论的结合正在重塑科学研究的范式。这不仅是一种技术上的突破,更是对科学发现本质的重新定义。这种跨越艺术与科学的旅程,为AI在未来的科学发展中打开了全新的可能性。

简单来说,这种方法可以称之为一种“上下文增强”(context enrichment)方法。要理解它的工作原理,我们需要先弄清楚大型语言模型(LLM)的一项核心特性:上下文学习能力(in-context learning)

通俗点讲,LLM可以接收从未见过的新上下文,对其进行学习,并基于此做出准确的预测。

举个例子,我们可以将LLM连接到一个浏览器API(例如OpenAI的实现方式),让它使用互联网。通过抓取与用户查询相关的信息,它甚至能够对其先前无法获知的最新事件做出回应。

尽管这种功能非常强大,但它的效果高度依赖于上下文的质量。那么,如果我们能够丰富提供的上下文,让LLM在更广阔的信息图谱中“探索”,进而发现那些起初并不显现的潜在知识,又会怎样呢?

这正是图谱的力量:通过创建关联性更强、更复杂的上下文环境,为LLM提供“知识地图”,它可以顺藤摸瓜,挖掘出隐藏的信息与洞见。

这种方法不仅提升了模型的表现,也为解决复杂问题开辟了全新道路。

布勒教授认为,标准文本虽然可以告诉我们“是什么”、“何时”、“在哪里”和“哪个”,但真正的价值在于“如何”。换句话说,如果我们能将上下文以知识的形式表达(围绕“如何”),而不是以原始文本形式呈现,就能让LLM的推理能力大大增强。

如何实现这一点呢?答案是图谱。

让我们用一个例子来说明: “基因A通过蛋白质B和P的产生与交互,以及丝状纤维C作为支架的应用,可以间接促进伤口愈合技术D。”

我们可以将这句话转换成一个知识图谱:

通过遍历这个图谱,我们可以得出结论: 基因A → 间接促进 → 伤口愈合技术D

🖼️
图片 3 700 × 602px

📷 图片包含在完整版文章中,点击文末按钮查看

通过这种方法,我们将数据中的关键模式提取出来,剔除了无关信息,专注于底层的核心关系。我们使用“节点”表示概念,用“边”表示关系,将看似无关的概念(如基因A与伤口愈合技术D)通过一系列连接关系串联起来。

通过以上例子,我们会发现图谱的优势:

图谱不仅仅是用于抽象信息,它还能处理复杂知识网络,进一步提升LLM的学习和推理水平。这种结构化的信息表示方式,为解决高复杂度问题提供了新的工具和视角。

图谱的另一大强大能力在于,它可以将来自不同来源的信息连接起来。以之前的例子为例,一项研究可能只涵盖“基因A到蛋白质P”的前三个概念,而另一项研究则可能探讨“蛋白质P与伤口愈合”之间的关系。

虽然在没有图谱的情况下也可以连接独立的来源,但图谱提供了一种自然的抽象形式。它通过内容本身,而非任意的方式,将每个来源直接联系起来。

通过图谱,我们将间接关联的概念整合为一个独特且可遍历的知识源。换句话说,图谱可以将原始内容转化为知识

尽管前面的例子相对简单,不需要借助LLM来处理,但当面对由1000篇研究论文构建的图谱时,情况就完全不同了。这种图谱包含成千上万的节点和连接,每个节点之间可能存在100跳长度的关系。

这样的复杂图谱才真正体现了AI的威力。

🖼️
图片 4 700 × 697px

📷 图片包含在完整版文章中,点击文末按钮查看

当将这些复杂的图谱输入到像GPT-4这样的LLM时,布勒教授指出,模型能够生成深刻的洞见,并推理出此前未曾建立过的概念之间的关系。这充分证明了LLM借助其上下文学习能力,能够探索出全新的研究路径,例如发现新的材料及其属性,或揭示看似无关概念之间的联系。

🖼️
图片 5 700 × 344px

📷 图片包含在完整版文章中,点击文末按钮查看

想象一下,这种方法用于探索新型抗病技术、开发新材料,甚至拓展到生物学以外的领域,会带来怎样的革命性变化。

布勒教授的研究并未止步于此。事实上,接下来的发展可能比这些还要令人震撼。

“复杂的系统和行为只不过是由深层简单性(deep simplicity)引发的表面复杂性(surface complexity)。”

——理论物理学家 默里·盖尔曼(Murray Gell-Mann)

之前的方法展示了如何通过直接关系将概念间的“鸿沟”填平,连接那些表面上看似无关的事物。而布勒教授进一步提出了同构性(isomorphism)这一概念。

同构性指的是在两个或多个看似毫无关联的数据分布中存在的共同结构。简单来说,虽然两个主题看起来完全无关,但它们的数据结构可能是相同的。

万花筒理论(The Kaleidoscope Theory)指出,尽管宇宙看似无穷无尽、不断变化,其深层结构却出人意料地普遍且简单。换句话说,尽管这些规律因媒介的不同表现形式各异,但它们实际上由一些普适的基本法则支配。

这个理论之所以被称为万花筒理论,是因为万花筒通过将光线折射到一组离散的晶体上,产生了无穷多的图案。而实际上,这些变化多端的图案都来自有限、恒定的晶体结构。

基于这一理论,布勒教授提出:

如果我能发现两个看似无关主题之间的同构关系,就可以利用对一个领域的知识来探索另一个领域的奥秘。

例如,布勒教授发现贝多芬的《第九交响曲》的底层结构(图谱)与某一生物数据集的图谱完全一致。如果两者的结构确实是同构的,那么我们可以将一个较大的图谱扩展到另一个较小的图谱中,从而发现新的数据模式。

🖼️
图片 6 700 × 375px

📷 图片包含在完整版文章中,点击文末按钮查看

在上述例子中,生物数据集中的子图能够连接到许多其他节点,而基于贝多芬的图谱却较小且有限。因此,我们可以利用生物数据集已知的结构扩展,推测贝多芬图谱的潜在扩展方向。这种方法可以帮助我们在研究相对较少的领域中拓展知识,甚至加深对这些领域的理解。

通过将上下文数据以图谱形式表示,并利用同构性,AI能够大幅拓展知识边界,同时提升我们的理解能力。

这些同构性(isomorphisms)具有模态无关性(modality agnostic),这意味着它们的底层结构不仅存在于文本和数据中,也可以应用于图像、声音甚至其他形式的媒介。

这一发现揭示了AI在发现隐藏模式和跨领域关联上的巨大潜力。从艺术到生物学,从音乐到材料科学,AI借助同构性正在打开全新的探索大门。

通过这一视角,宇宙不再是一个无法捉摸的混沌,而是一幅能够解码的复杂万花筒图景。

布勒教授发现,康定斯基的《构图七号》(Composition VII)与可持续发展的菌丝体材料之间存在着惊人的相似性。这一发现表明,仅通过理解画作中的模式,就可能催生出新材料的发现。

🖼️
图片 7 700 × 648px

📷 图片包含在完整版文章中,点击文末按钮查看

这篇研究的最大贡献在于,它可能为解锁AI的“泛化”(generalization)能力提供答案。

目前的AI模型无法对未��全分析过的数据进行有效推理。但如果模型能够将已知数据的同构关系应用于新数据,那么它就可以对未知数据进行推理。这将突破当前AI发展的一个重大瓶颈:对“未知的未知”进行推理的能力

通过这种能力,AI不再仅仅是一个基于数据的工具,而将真正进入泛化推理的新时代。

如果AI能够推理和处理未知领域的数据,我们便能开始认真思考一个问题:我们是否正在真正创造出一种具有智能的机器?

这项研究不仅在技术上推进了AI的潜力,还为跨领域发现带来了全新的可能性。从艺术到科学,AI通过模式识别和结构映射,正逐步解开隐藏在表象之下的深层奥秘。

这项研究不仅重新审视了AI当前的局限性,还为应对这些问题提供了令人耳目一新的解决方案——利用图谱和数据中隐藏的模式,作为探索和推演的工具。这恰恰是AI至今在许多领域中未能完全发挥的潜力。

此外,这项研究展示了某些原理在不同学科间的普适性。它突破了传统学科的界限,表明一个领域的思想可以如何丰富另一个领域的理解。这种交叉学科的方法为科学探索开辟了全新的可能性。

如果这篇文章你只记住一个观点,那就是:

AI 对社会的最大贡献,不是生产力的提升,而是科学发现的加速

人们常常将AI的未来框定为超级智能(Superintelligence),如Sam Altman等人所言。但实际上,AI的真正力量并不在于科幻小说般的“超级智能”,而是它具备一种“无趣却极为强大”的现实能力:识别我们无法察觉的模式

通过图谱技术,我们正在进一步增强这一能力,使其能够在复杂数据中发现深层联系,加速科学研究,推动未知领域的突破。

AI被描述为魔法,并不是因为它能让企业更高效、成本更低或利润更高,而是因为它能实现我们无法独自完成的“魔幻”目标,比如利用其模式识别能力成为科学发现的有力工具,将科学的边界不断向前推进。