人工智能的卓越发展
源于对技术与产业本质的洞察
机器之心视频栏目「智者访谈」
邀请领域专家,洞悉 AI 核心趋势
深化行业认知,激发创新思考
与智者同行,共创 AI 未来

然而,药物研发作为一个漫长而艰难的过程,10 年、10 亿美元、10% 成功率的「魔咒」仍然困扰着整个行业。尽管人工智能已经在多个环节展现出巨大潜力,业内专家普遍认为,距离 AI 药物研发发展成熟甚至带来颠覆性改变还需要很长一段时间。大模型的出现,为加速这一进程提供了新的契机。本期机器之心《智者访谈》邀请到清华大学聂再清教授,探讨他在将先进的自然语言处理技术应用于生物医药数据分析的创新实践。聂教授及其团队正致力于构建生物医药领域的基座大模型,通过对不同尺度和不同模态的数据进行建模及整合,建立起生物语言与自然语言之间的桥梁。团队的目标不仅仅是实现自然语言与生物语言之间的翻译,而是打造一个能够调用各种工具的智能助手。这个助手有望成为生物医药行业应用的重要入口,整合领域内的各种数据、知识和工具,并且使用自然语言与人类专家交互,通过人机协作提升药物研发的效率与成功率。在当前的技术背景下,相较于单纯研发更好的 AI 药物模型,这种模式具有更高的商业可行性。基于大模型的对话式药物研发助手 ChatDD 界面,用户通过自然语言进行智能搜索、工具调用和指令输入,包括对生物语言(如蛋白质结构)进行优化。例如,专家可以输入自然语言要求「优化这个分子以减少毒性」,模型随后会提供相应的建议和方案。来源:水木分子如果说数学是描述物理学的完美语言,那么人工智能则被认为是破译生物学复杂机理的关键。在访谈中,聂教授将分享其团队在自然语言与生物数据融合方面的前沿研究成果,探讨基于多模态大模型的对话式智能助手在药物研发中的实际应用与商业潜力,为我们揭示人工智能赋能药物研发的全新可能。
访谈文字整理
机器之心:聂再清教授好,非常高兴您做客机器之心的《智者访谈》。我们知道您在自然语言处理和语音识别等方面有着深入的研究和实践,目前在清华大学智能产业研究院(AIR),主要从事生物医药相关的研究工作,并且在 AlR 孵化的公司水木分子担任首席科学家,很高兴能与您就 AI 赋能药物研发进行探讨。
您之前讲过在药物研发领域,一个核心的矛盾就是干湿实验无法结合,比如说干实验预测出来的结果在湿实验上面可能并不成功。聂再清:因为干实验一个最大的问题是,其结果是基于某一个数据集的,而那个数据集跟现实生活中的真实场景并不一定完全一致,所以基于这个数据集训练出的模型,用在真实场景时,有可能效果就差别很大,很难说一个精度 80%、90% 的模型在湿实验的结果里能具体代表什么。当然,我们可以去建一个非常通用的数据集,用以去提升模型的通用性,但现在的问题是数据集的制定和现实制药场景的制定,可能还没有那么好的一致性。在具体任务上,最终效果还是得通过湿实验检验,模型效果到底怎么样,是否可用,湿实验的效果是非常重要的。
01、做基于大模型的对话式药物研发助手
机器之心:您在水木分子带领团队研发基于大模型的对话式药物研发助手,这是一个非常新颖而独特的赛道,因为说到药物研发,我们首先想到是预测结构、生成新的分子、设计全新的抗体等等,您为什么会选择解决这样一个问题?聂再清:我一直从事自然语言理解这部分的工作,我发现 ChatGPT 或者大模型确实是一个很大的技术进步,也让大家看到很大的机会,有可能在通用 AI 能力上取得较大进展。选择在这个时期加入大模型相关的工作,因为我看到未来大模型在每个行业里面都会产生非常重要的作用。那为什么选生物医药?首先生物医药这个领域,有很多可以拿来做自监督学习的数据,比如我们已经积累了超过 20 亿的蛋白质氨基酸序列数据。我认为这个领域现在应该可能处于自然语言的 GPT-2 时期,模型的能力尚不能够在生物数据这个模态上涌现智能,也就是说不是每一款干实验模型预测的药物,都能超过专家。在这种情况下,我们希望能够把专家的经验和直觉与大模型目前对生物这一部分的理解能力融合在一起,所以就提出了一个对话式助手的想法,一方面把专家的经验跟直觉用对话的形式告诉大模型,去帮助大模型,另一方面又把大模型设计的结果用自然语言解释给专家听。这样让人和大模型有效融合,去弥补现在生物模态本身还没有完全实现涌现智能的不足。
如果我只做生物模态,就像很多公司那样,一个最大的问题是我们推荐的分子或者说抗体,可能并不能够在湿实验上一做就有效果,临床完就通过了,因为它现在还没那么有效。很多时候,在干实验上做得很好的结果,比如我拿排名第一的或排名前十的结果去做湿实验,可能没有一个成功。至于专家,尽管专家有制药的经验与直觉,但他没有办法跟模型有效沟通,模型并没有向专家解释到底为什么预测出这样的结果。聂再清:对,药物研发专家也没有时间天天去写模型,那专家能做的是什么呢?在小模型时代,专家可能做的就是去构建一个训练数据集,用于训练模型,但这件事也要花很多时间,而且做了之后到底能不能大幅提升这个小模型的性能,也是一个问题,如果没有提升,专家的信心就受挫了,就不去写训练数据了。从怎么有效地把专家跟人工智能算法结合起来的角度,我觉得需要两个模型的融合,这是在交互的层面,在知识融合这个层面,其实也需要两个模态模型的融合,我们现在已经有大量用自然语言写下来的知识,比如发现了一个靶点,也就是发现了一个蛋白质和疾病的关联,那么这一部分知识如何与生物模态的知识融合在一起,也是一个亟待打通的问题。所以基于这样的考虑,我们决定做基于大模型的对话式药物研发助手。
02、构建生物医药领域的基座大模型
机器之心:水木分子团队研发了一个叫做 ChatDD-FM 的大模型,您能给我们介绍一下这个模型吗?聂再清:我们希望 ChatDD-FM 成为这个行业的基座模型。要成为基座模型,它首先就得能够表示这个行业里面用到的所有数据,当然也能够去完成这个行业里的任务,同时还要能够与生物医药行业里面的专家去进行对话,能够调用这个行业里面所有的工具去解决专家们的问题。所以在这里面天然就存在两类模态数据的表示,一类是文本模态,还有一类是生物模态。那文本模态除了自然语言,还有结构化的知识(比如知识库)和非结构化的表示。生物模态里面则有蛋白质分子、氨基酸序列、单细胞、活性小分子,等等。这里面的每一种生物数据,我们都会去打造一个编码器,比如我们会有一个蛋白质的编码器,也可以叫做蛋白质语言大模型,也有小分子的大模型,单细胞的大模型……对于这每一个大模型,我们也希望专家能够用自然语言去理解、去沟通,因为专家看到一个蛋白质,或者看到一个小分子,对于这个结构本身,对于它的生物学功能,比如这个小分子基团放在这里可能会带来什么样的功能等等,这样一些生物模态语义的信息,其实专家是希望能够去与系统交互的。所以我们构建了一个多模态的生物医药大模型,能够在自然语言和生物语言之间进行翻译,专家可以用自然语言去提问,他甚至可以用自然语言去说,「帮我再优化一下这个分子,减少一下毒性」,然后模型反馈一些不同的建议。机器之心:比如说我可以直接输入一句话,「给我设计一个感冒药」,然后它就输出一个感冒药?聂再清:对,理论上是可以的,但从实践角度讲,基于现在这个大模型的能力,这样做可能不是最优的,现在最优的方法可能是给它一个小分子或者一个骨架,专家用自然语言说「如果更换这个骨架,或者提升某一个性能,需要做什么,给我一些建议」。甚至最好也不是从头生成一个分子,因为从头生成分子涉及到很多复杂的过程和反应,我们需要了解其中的具体细节,比如这个分子它是怎么合成的等等。因此,可能最好还是通过虚拟筛选的方法,或者说在生成一个分子的时候,然后找到一个跟这个分子相似的的可合成的药物,在此基础上再接着优化。当然,在实践中这个过程可能会有所不同,但一定是可以用自然语言去跟大模型沟通的,让大模型可以朝语义方向去优化。
03、多尺度建模及融合:统一到原子
机器之心:在生物模态里既有细胞,又有蛋白质、组织等等,如何在一个模型里面把这些不同尺度、不同模态的数据都统一到一起,并且去表达它们之间的这些复杂关系呢?聂再清:这个是一个很好的问题。人体有很多组织,每个组织都有不同的功能,在肝脏就是排毒的,在眼球就是看东西的,因此存在很强的语义(Semantic meaning)。同时,眼球本身又具有空间结构,它里面有很多细胞,细胞之间要产生相互作用,在每个细胞里面又有蛋白质,蛋白质和药物如果要相互作用,可能要与小分子结合,那么化学小分子里的原子去产生作用,与蛋白里的氨基酸结合本身就是一个不同的尺度。我们的自然语言也是一样,我们可能有图书馆,可能是分类别的图书馆,有不同功能的图书馆,图书馆里面又有一本本的书,书里面又有章节(Section),里面又有段落(Paragraph),最后到词,对吧?所以我们觉得人体、生物语言,可能跟自然语言类似,这里面也可以找到一个最基本的 Token,那就是原子。所以,我们认为基于原子有可能打造一个非常好的生物模态的基础模型,能够表达包含小分子和蛋白等不同尺度的相互作用,并且未来可能有更多的生物语义发展起来,所以我们觉得这是一个解决多尺度建模问题的重要方法。最近我们有合作提出一个工作,起了个名字叫 ESM All-Atom(ESM-AA)。这个模型通过将蛋白质的一部分氨基酸展开(Unzip),把它整合成对应的原子,通过混合蛋白数据与分子数据进行预训练,这样模型就同时具备了处理不同尺度生物结构的能力。训练的时候,不光有蛋白质,我们还把分子、小分子数据也放在模型里面。为了帮助模型更好地学习和优化原子尺度的信息,我们还利用原子尺度的分子结构数据进行训练。通过引入多尺度位置编码的机制,模型可以很好地对不同尺度的信息进行区分,确保模型能够精准理解残基层面和原子层面的位置和结构的信息。
ESM-AA 模型多尺度预训练过程概览。核心是多尺度位置编码(Multi-scale PE)模块,分别处理蛋白质和分子的不同尺度信息。模型的输入是单独的蛋白质或分子,而不是蛋白质-分子对,这种设计使得模型能够学习更通用的表示,适用于各种蛋白质-分子相互作用任务。来源:Zheng et al., arXiv:2403.12995, 2024机器之心:在您看来,如果我们要把所有的生物模态都统一到一个框架下面来表示,还有哪些难点需要去克服?聂再清:如果要实现一个统一的框架来表示生物模态信息,首先要有很多的数据,把人体的组织、细胞、蛋白以及小分子药物之间的关系,通过高通量测序等技术进行数字化,这样就能产生大量的数据。未来有了数据之后,怎么打磨一个模型?这个模型能够既考虑宏观又考虑细节,我觉得有可能像视觉识别里面的物体检测(Object Detection),每个区域都有语义,例如里面有一辆车、车上有轮子、轮子还有很多更细的 Object,当然最后它们都由最基本单元——像素(Pixel)组成。计算机视觉有很多跨尺度研究的工作,与我们最近研究的空间转录组单细胞表示学习工作有些类似。
团队提出了单细胞与文本跨模态大模型 LangCell,将单细胞 RNA测序(scRNA-seq)数据和相关的元数据(如细胞类型、发育阶段和疾病状态)整合到一个统一的框架中,实现对单细胞数据的全面理解和多模态表示。来源:S. Zhao et al., LangCell: Language-Cell Pre-training for Cell Identity Understanding, ICML 2024
但是,在融合单细胞、蛋白质和小分子这些跨尺度的生物数据上,在算法上又需要有大量的创新。不同尺度之间存在复杂的相互影响和依赖关系,如何在模型中准确捕捉和保持这些关系是一个重大挑战。对此,可以设计跨尺度的注意力机制,确保不同尺度的信息能够有效地互相影响和补充,帮助模型有效整合不同尺度的信息,从而提升模型的准确性和鲁棒性。不同模态的数据在结构、尺寸和特征分布上存在显著差异,如何有效整合这些异质数据是另一个关键挑战。未来我们计划将更多生物模态的数据都映射到原子表示空间,实现数据的兼容和互操作,确保不同尺度和模态的数据都在一个共享的表示空间中进行映射和交互,实现信息的无缝融合。在模型训练过程中,可以结合多任务学习,比如蛋白质折叠、Co-folding、蛋白质-小分子相互作用预测、药物毒性预测、分子编辑等等,提升模型的泛化能力。利用大规模的生物数据进行预训练,捕捉丰富的生物知识和多尺度信息,为下游任务提供一个强大的生物数据 Foundation Model。机器之心:那现在水木分子在数据这方面有什么投入,或者是说重点投入在哪里?聂再清:我们现在大量的数据还是基于公开数据,就是已经做了实验也被公开出来的数据。除了这种实验数据以外,我们还有很多文本数据,其中可能有几千万的论文、专利,还有很多结构化的知识库数据,那么,这些数据如何去跟生物模态的数据对齐,这部分的工作很有挑战,也是我们数据工作的重点。假设你要去找到一个小分子跟文本的对齐的 Pair,那这个文本不仅要能描述这个小分子,还应该方方面面都讲到,从不同的角度去描述,我们叫做多视角(Multiview representation),比如关于小分子的描述,可以是关于小分子的基团,每个基团起什么作用,也可以是小分子在宏观上的性质,还可能是这个小分子在某些结构上某些功能的描述,这样才有利于大模型学习。不光是在数据处理上,在模型的研发上最好都能考虑到这些。
团队提出的分子表示学习模型 MV-Mol,将化学结构的专业知识和生物医学文本中的非结构化知识以及知识图谱中的结构化知识融合到一起,利用文本提示来模拟视图信息,并设计了一个融合架构来提取基于视图的分子表示,实现了对分子特性的更准确预测以及在分子结构和文本的多模态理解方面的性能提升。来源:Y. Luo et la., Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge, KDD 2024
我们要做这个行业的助手,就得把知识搞准确,我刚才讲的是用来训练模型的数据,还有一部分数据是在用户在提问的时候,我们也要把最准确的知识回答给用户,为了具备这样的能力,那对于这部分能力,我们正在建一个水木分子的知识库。我在微软做了很多实体挖掘、实体搜索的工作,其实在很早以前我做过一个叫做「人立方」的项目,把各个人的各个信息,不管是结构化的、非结构化的都集合起来,然后用一个搜索,一搜就能够搜到关于这个人的各种各样的信息,那个工作在知识图谱那个年代还是比较有引领作用的,对于我们正在构建的水木分子知识库,也有很多的借鉴意义。我们正在做一个叫 EntityChat 的技术,希望对一个实体的问题,可以利用它的结构化知识、非结构化的知识和生物模态的知识去回答。
04、药物研发助手 ChatDD:
产品、服务及商业模式
机器之心:水木分子现在是已经推出了产品级的应用 ChatDD,您能够结合具体的使用场景给我们介绍一下吗?聂再清:我们希望 ChatDD 成为这个行业的助手,所以希望它能够解决药物研发各个环节中的问题。我们现在主要集中在三大类场景:立项、临床前药物研发,以及临床试验。在每个领域我们都希望找一个灯塔客户去合作,看一看他们的真实需求是什么,我们模型和数据的能力要怎么才能够去解决他们最核心的痛点,所以每个场景都不大容易。以立项为例,我们也在与一个比较头部的公司在合作。如果药厂要开展一个项目,首先需要找到足够的证据提交给这个公司的立项委员会,假设每个公司都有一个立项委员会,它肯定要去做一个规划方案,提供足够的材料证明这是一个好项目,能为公司带来巨大的前景,或者说风险有限,或者我们必须去做等等。当然,药物研发的项目有多种,可能是创新药项目,也叫 First-in-cla