预测下一个流感高峰应该用哪个数学模型?
这不是一个简单的问题。流行病学建模是一个高度复杂的领域——SEIR模型、时间序列模型、机器学习模型、混合模型,每个大类下面又有无数变体。选择哪个模型、怎么调参、如何处理不同病原体的交互作用,这些决策直接影响预测的准确性。
哈佛大学和麻省总医院(MGH)团队最近发布的论文(Prospective Multi-Pathogen Disease Forecasting Using Autonomous LLM-Guided Tree Search)提出了一个有意思的方案:让LLM自己来搜索最优的建模策略。
LLM引导的树搜索
论文的方法论核心是"自主LLM引导的树搜索"。
把流行病建模的决策空间想象成一棵树。树的每个节点代表一个建模选择——用哪种模型框架、包含哪些变量、如何处理季节性因素、是否考虑病原体之间的竞争关系。从根节点到叶节点的一条路径,就是一个完整的建模方案。
传统的方法是人工搜索这个空间——领域专家根据自己的经验选择模型、调整参数。这个过程耗时且容易受到个人偏好的影响。
论文的做法是让LLM作为自主的搜索Agent,在这棵树上进行探索。LLM不是随意选择——它会基于对各个分支历史表现的分析,做出有信息量的决策。哪些路径值得深入探索,哪些应该剪枝,LLM自己判断。
多病原体预测的复杂性
论文聚焦的是一个特别有挑战性的场景:同时预测多种病原体的传播动态。
单一病原体的预测已经很难了。多病原体更复杂——不同病原体之间存在交互作用。比如,一个人感染了一种呼吸道病毒后,短期内对其他病毒的易感性会发生变化。学校放假、气候变化、人口流动这些因素对不同的病原体影响也不同。
LLM在这里的价值不是它比流行病学专家更懂疾病传播,而是它能同时在更大的假设空间中进行系统性的探索。专家可能会受限于自己熟悉的模型类别,而LLM可以跨类别、跨方法地进行组合和创新。
前瞻性验证
论文的一个关键设计是前瞻性验证——不是用历史数据回测(这容易过拟合),而是在真实的时间点上做实时预测,然后等待实际数据来验证。
这种验证方式在流行病学研究中非常重要。回测结果好不代表预测能力强——你可能只是记住了历史的模式。只有前瞻性的、实时的预测,才能真正检验一个模型的价值。
与其他AI for Science工作的关系
近期AI在科学领域的应用呈现出几个不同的范式:
替代范式:用AI完全替代传统的科学方法。比如用端到端模型直接预测结果,跳过物理/生物建模。这个方向争议很大,因为缺乏可解释性。
辅助范式:AI作为工具辅助科学家。比如加速计算、自动文献调研、生成假设。这个方向比较成熟,但AI的角色是"工具"而非"合作者"。
自主范式:AI自主进行科学探索。这是ARIS(上海交大的自主科研Agent)和这篇论文代表的方向。AI不只是执行命令,而是主动搜索假设空间、设计方案、做出决策。
LLM引导树搜索属于自主范式,但它比ARIS更聚焦——不是让LLM做全流程的科研,而是让它在特定的、结构化的搜索空间中做自主探索。
我的看法
这篇论文展示了LLM在科学建模中的一种新角色:不是对话伙伴,不是文本生成器,而是自主的搜索Agent。
这种角色的转变很重要。当我们把LLM定位为"对话工具"时,我们对它的期望是"回答我的问题"。但当它成为"搜索Agent"时,我们对它的期望变成了"在我不指定的方向上做出有价值的探索"。
后者对LLM的要求更高。它需要有足够的领域理解来做出合理的搜索决策,需要有自我评估能力来判断哪些方向值得继续探索,还需要有跨知识领域进行组合创新的灵活性。
论文的前瞻性验证设计也值得肯定。在AI for Science这个领域,太多工作停留在回测阶段。只有前瞻性的、实时的验证,才能真正建立对AI预测能力的信任。
当然,这个方法也有局限性。LLM的搜索质量高度依赖于它的提示设计和搜索策略的设计。如果搜索空间定义得不合理,或者LLM的评估标准有偏差,搜索过程可能走向错误的方向。
但在正确的框架下,让AI自主探索科学假设空间——这个方向本身就足够令人兴奋。
主要来源: