谷歌和耶鲁刚联手搞出个能帮着找抗癌新路子的AI模型,叫C2S-Scale。
这模型不只是说说而已,还真提出了个没人发现过的抗癌假设,最后在实验室里也验证成了,在AI帮着搞科学研究这块,算是个实打实的突破。
先跟大家说清楚这模型的“底子”,它不是凭空造的,是在谷歌Gemma模型基础上改的,光训练数据就喂了超10亿段有细胞的转录组信息,就是细胞里基因表达的情况;还有各种生物学论文里的知识点。
这么一喂,它就能“看懂”细胞的“语言”,知道细胞在不同情况下会有啥反应,这为后面找抗癌方法打下了基础。
研究人员给这模型派的任务挺具体:找一种“条件性放大剂”。
简单说,肿瘤有时候会躲着免疫系统,就像“隐身”了一样,得让它显示出信号,让免疫细胞能发现。
这种放大剂得“挑环境”,只在有免疫信号的“阳性环境”里干活,在没免疫信号的“中性环境”里别瞎折腾,这样才不会误伤正常细胞,符合临床实际。
为了找到这种药,研究人员设计了“双环境虚拟筛选”。
他们让模型在两种环境里测试4000多种药,一种是模拟真实肿瘤的“阳性环境”,保留肿瘤和免疫细胞的互动,还有低水平的干扰素信号;另一种是没免疫背景的“中性环境”,就像单独的细胞系数据。
一开始我还担心这模型会不会瞎选,结果它还真靠谱。
大概10%-30%的选出来的药,在以前的文献里有报道,这说明它没乱猜;更关键的是,剩下的都是没被报道过的新发现,这就不是简单重复已知了,是真的在找新东西。
其中最亮眼的是它发现了激酶CK2抑制剂silmitasertib的“环境分化效应”。
这药平时没啥特别的,可一到免疫活跃的环境里,就能显著增强抗原呈递;在免疫中性环境里,几乎没效果。
为了验证这一点,研究人员在人体神经内分泌细胞模型里做了实验:单独用这药,对抗原呈递影响不大;低剂量干扰素单独用,也就有点轻微效果;可两者一起用,抗原呈递直接提升了不少。
这一下就证实了模型的预测是对的,也给让肿瘤“现身”找了个新路子。
以前我总觉得,AI在科学研究里就是个“数据处理员”,帮着整理整理数据,或者重复一下已知的结论。
但这次C2S-Scale让我改变了看法,它居然能自己提出可验证的新假设,这相当于帮科学家打开了新思路。
这背后其实有个重要的发现:生物学模型也遵循“规模规律”。
就像语言模型越大越聪明一样,C2S-Scale有270亿参数,比小模型多了个关键能力复杂的条件推理。
小模型根本抓不住“依赖环境的效应”,比如这药在不同免疫环境下的不同反应,可大模型就能做到。
这说明模型规模扩大,不只是性能变好,还能解锁新的“思考能力”,这对后面的科学研究太重要了。
更实在的是,这模型现在全开源了。
在HuggingFace上能拿到模型,GitHub上有代码,不管是大机构还是小实验室,都能用它来做研究。
以前很多小实验室因为没高端设备,搞不了虚拟筛选,只能看着大机构干着急。
现在有了这个开源模型,大家都能参与进来,一起琢磨抗癌的新方法,进度肯定能快不少。
如此看来,C2S-Scale不只是搞出了一个抗癌新发现,更重要的是它打开了AI驱动科学发现的新范式。
以后科学家可能不用再像以前那样,靠大量试错来碰运气,AI能帮着提出新假设、筛选方向,把时间和精力用在更关键的实验验证上。
虽然现在这研究还在早期阶段,但照着这路子走,说不定用不了多久,就能有更多抗癌新疗法冒出来。