tvt体育再造一个英伟达？黄仁勋如何看待生物学与AI大模型的未来？

发布：2024-02-27 17:26:41 浏览：次

　　tvt体育在他的描绘中，未来生物学（或者说以生物学为基础的学科）会像传统行业（比如汽车和软件）那样高度工程化。

　　为了避免误解，我们先统一认识。生物学不是没有工程，本文不讨论原有工程，只聚焦科学转变为工程。

　　蛋白质结构是决定其功能的关键因素，了解蛋白质结构以便理解蛋白质功能，或者反过来，已知蛋白质功能设计蛋白质。

　　比如，药物筛选，了解蛋白质结构可以帮助筛选出更有效的药物候选物，缩短药物研发周期。再比如，抗体药物设计，已知抗原结构特征，设计能和该抗原稳定结合的抗体。

　　没有谷歌AlphaFold软件的时候，人类约已知17万种蛋白质折叠后的空间结构。

　　这些“已知信息”主要来自于实验室，方法包括X射线晶体学、电子显微镜和核磁共振等成像技术。AlphaFold是谷歌DeepMind团队开发的一种蛋白质结构预测系统。根据蛋白质的氨基酸序列预测其三维结构。

　　AlphaFold软件用到当时很新且很厉害的算法（MSA）。重点是对这些序列进行比对，找到氨基酸序列相似的蛋白质；进而推测未知结构蛋白质的结构。

　　打个比方，一个蛋白质和它结构相似的蛋白质多，好比“兄弟姐妹”多，这时候MSA算法的效果就好。这样一种“靠亲戚”的算法，对孤儿蛋白（orphan proteins）的预测准确度就比较低。

　　早在2020年，AlphaFold2展现出优秀的预测能力，预测精度达到与实验方法相当的水平。AlphaFold2一顿猛干，从问世之时一直干到2022年7月，就把地球上几乎所有的2.14亿种蛋白质结构都做了预测，这18个月的成果是人类历史工作量的好几百倍。

　　AlphaFold2的局限是停留在对现有蛋白质的结构预测，没有考虑设计全新蛋白质的需求。

　　第三个台阶是David Baker（大卫·贝克）实验室的成果ProteinMPNN迈上去的。

　　这位生于1962年的老教授，想必头发也有些花白了吧，我欣赏那种用尽毕生精力只为做成一件事的科学家。

　　David Baker（大卫·贝克）开创了预测和设计蛋白质三维结构的方法，称赞其为“蛋白质设计”领域的行业领军人物，实至名归。

　　我断断续续地观察他们团队好几年了，每每写这个领域，就不得不感慨，这团队又为行业做了不少好事。

　　有些科学家的AI成果只停留在学术论文里，进展太小，创新极微，或者没啥人用；

　　再反观David Baker（大卫·贝克）团队，论文高产似母鸡，专利收割机。仅仅是一个实验室的成果，完全可以拿出来和谷歌内部这个方向的团队PK，我相信这种良性竞争是“推动行业进步的催化剂”。

　　于是，2022年9月，David Baker（大卫·贝克）实验室拿出来一种蛋白质设计方法ProteinMPNN。

　　教授的自我点评很关键，他说：“AlphaFold是预测蛋白质结构，而ProteinMPNN的作用是设计蛋白质。”

　　也就是说，传统方法通常通过改造现有的，而ProteinMPNN不受已有蛋白质结构的限制。

　　ProGen是美国斯坦福大学和千亿市值SaaS巨头企业Salesforce一起研究的。

　　第二，ProGen可跨越不同蛋白质家族生成功能性蛋白质序列。这意味着它们可以用于开发新的药物和治疗方法。

　　AlphaFold 2证明大语言模型常用的Transformer架构在蛋白质结构预测中很有效，ProGen则证明了大语言模型在蛋白质设计任务中也可以承担重要角色。

　　在MindSpore软件上，部署有计算生物领域套件，这个名为MindSpore SPONGE的是生物计算的分子模拟工具。

　　基于此工具，他们团队联合昌平实验室等科研机构完成了蛋白质折叠的训练与推理全流程(MEGA-Fold)tvt体育，同时还通过算法创新(MEGA-EvoGen)解决了孤儿序列结构预测的问题，并在全球持续蛋白质结构预测竞赛CAMEO中取得连续三次霸榜的好成绩。

　　这个团队我跟得比较紧，几乎看着他们一步一步做起来，前情故事收录于《我看见了风暴》一书。

　　这句话不是很好理解，蛋白质和语言，就像生物课和语文课，两者看上去没有关系。

　　可以换个角度这么想，几十个氨基酸或者几千个氨基酸可以组成一个蛋白质，蛋白质有几亿种。英文字母组成单词，英语语言表达的意思也有上亿种。

　　大语言模型生成的原理是预测下一个词，简单点说就是成语接龙，只要不断电，机器能一直接下去。当你理解了大语言模型预测下一个词的方法，再把蛋白质看成一种语言。

　　于博谈道：“ProGen 算法借鉴大语言模型生成文本的原理主要体现在以下两个方面：

　　第一，将蛋白质结构表示为一个序列，蛋白质结构可以表示为一个氨基酸序列，这与文本中的单词序列类似；

　　第二，大语言模型学习语言中的上下文关系，并预测下一个单词，这与预测蛋白质结构中的下一个氨基酸原理类似。”

　　简单讲，ProGen算法的大致步骤如下：1.将蛋白质表示为一个氨基酸序列；2.用模型来预测下一个氨基酸；3.重复步骤2，直到生成完整的蛋白质。

　　2023年初的ProGen作为一个语言模型，参数规模并不大，只有12亿。对比2022年末，元宇宙公司Meta的模型（ESM-2）有150亿参数，参数大了10倍。紧接着2023中，百图生科也推出了一个又大一个数量级的蛋白质语言模型（xTrimoPGLM），具备1000亿参数。

　　第五个台阶还是David Baker（大卫·贝克）实验室的成果迈上去的，他们团队线月，他们实验室拿出了成果RFdiffusion，该模型能够定制化设计蛋白质。这一重要进展，既有潜力，也有挑战。

　　于璠博士的观点认为，大模型的威力并没有完全释放，随着模型通用性能力的提升，生物领域也会受益。

　　他谈道：“从技术角度，可以把AlphaFold2理解为专有模型，擅长蛋白质结构预测这种单一任务，就好比机器翻译模型，擅长翻译；引入语言模型的成功，代表着一种呼之欲出的趋势，把预训练大模型做好，下游很多生命科学方向的任务都能被统一解决。”

　　未来，生物领域的科学发现转变为工程，比如蛋白质发现，变成蛋白质工程。他这种观点，在小范围内引起了一些讨论，但尚未引起广泛关注。

　　周芃博士的背景跨越了类脑与大模型。她在美国加州大学圣克鲁斯分校取得博士学位。

　　比起同学科的博士，她在专注于脑启发式计算、类脑计算之外，又投身于大语言模型事业。她目前在研究将类脑的原理用于创新大模型结构。

　　她这样告诉我：“今天的计算机产业，规模大，分工细，从芯片到计算机体系结构，从硬件到软件。计算机产业依靠扎实的基础性发明奠定基础。那些半导体奠基人或者说诺贝尔物理学奖获得者的工作居功至伟，是典型的科学工作。而大部分软件从业者所做的相关工作是工程。

　　黄仁勋迪拜对话中这一小段话的意思是说，生命科学还处在发现生物世界本身规律的阶段，人类还没有进入生命科学蓬勃发展并创造出有巨大影响力且实用的东西的时期；

　　我接着问周芃博士：“能不能这样理解，未来会有一套计算机硬件、软件、系统、应用，基于生物所启发创造专用，进而再发展出一个生物的工程系统？”

　　我更进一步地问：“甚至tvt体育，生物专有芯片，从研究到应用，全套围绕生物，甚至整个计算机软件栈全部都基于生命科学重新设计一套？”

　　这次，我也和百图生科首席AI科学家，美国佐治亚理工学院计算机学院终身教授宋乐聊了聊。

　　他补充道：“主要是大规模预训练模型和生成模型让蛋白质设计变得越来越工程。”

　　例如，在这种软件上，对某种蛋白质的结构可以预测得很准。预测准了之后，才能改造。

　　或者说，不限于蛋白质结构，这个软件能对生命科学里面涉及到的属性做模拟，预测tvt体育，和设计。想用什么属性，都可以。

　　类似这种通用蛋白质工程平台，像设计汽车那样，设计软件那样，来设计蛋白质。

　　未来，软件会从微观向更宏观的尺度进展。通过这种软件，可从不同尺度观察和模拟生命体。

　　未来，除了单个分子层面的“模拟”和“预测”，我们将能“看到”越来越多的分子相互作用，细胞，细胞相互作用，组织器官，甚至生物个体层面的“模拟”和“预测”软件或AI模型。

　　我向宋教授提问：“分子尺度下的生物软件系统大约会在多少年左右发展起来?”

　　“我们现在还在起步阶段，很多论文发表在《自然》《科学》杂志上，代表着一种新思想的涌现。当下，模型的预测准确率也需要新的突破。”他补充到。

　　未来多种任务统一的通用生物大模型会有更大威力。百图生科做了一个1000亿参数的模型解读蛋白质，融合了蛋白质理解和生成两大类不同任务tvt体育。

　　每次，我和宋教授交流，都感觉被前沿信息冲击了一把，如果不仔细思考，很容易理解不透彻。在交谈中，他还多次鼓励我，启发我：“你想象一下……”

　　引用宋教授的朋友圈里的一句话：“一起用预训练大模型见证生命科学的进化。”

　　聊了这么多，其实你会发现，于璠博士、周芃博士、宋乐教授，他们三位从某种程度上毫不费力地达成了共识。

　　公司（ Isomorphic Labs）的目标不仅仅是使用 AlphaFold 进行蛋白质结构预测，而是要更进一步，参与整个药物发现的过程。

　　翻译过来：“距离AI参与整个药物发现过程，还需要6个AlphaFold 级别的重大技术突破。”

　　有一位云厂商的销售老总告诉我，有家基因公司，实力强劲。结果，该公司上云的几行代码，放眼整个公司没有人会写，最后他只好自己上手了，幸亏他有编程背景tvt体育。

　　不仅于此，不少生物实验室里的科研人员，每天干着不少类似“保洁大姐”的工作。

　　而我们这篇文章在大胆畅谈谈“设计蛋白质”“编辑药物”。跨度有点大，是不是在胡扯？

　　质疑永远有意义，而像我这样的科技记录者和观察者，预判错误是家常便饭。我认为错误与否并不最重要，而是观察和推论的过程里，我有收获，读者也有收获。

　　对于万亿市值的科技巨头英伟达来说，黄仁勋所描绘的未来，奔涌着财富的潮水。

　　按照David Baker（大卫·贝克）教授的判断：“如果你能完全按照第一性原理设计蛋白质，你就可以解决当今人类面临的许多问题——在医学方面，也在材料和能源方面。”