让LLM自己做流行病预测：哈佛团队用自主树搜索预测多病原体疾病

预测下一个流感高峰应该用哪个数学模型？

这不是一个简单的问题。流行病学建模是一个高度复杂的领域——SEIR模型、时间序列模型、机器学习模型、混合模型，每个大类下面又有无数变体。选择哪个模型、怎么调参、如何处理不同病原体的交互作用，这些决策直接影响预测的准确性。

哈佛大学和麻省总医院（MGH）团队最近发布的论文（Prospective Multi-Pathogen Disease Forecasting Using Autonomous LLM-Guided Tree Search）提出了一个有意思的方案：让LLM自己来搜索最优的建模策略。

LLM引导的树搜索

论文的方法论核心是"自主LLM引导的树搜索"。

把流行病建模的决策空间想象成一棵树。树的每个节点代表一个建模选择——用哪种模型框架、包含哪些变量、如何处理季节性因素、是否考虑病原体之间的竞争关系。从根节点到叶节点的一条路径，就是一个完整的建模方案。

传统的方法是人工搜索这个空间——领域专家根据自己的经验选择模型、调整参数。这个过程耗时且容易受到个人偏好的影响。

论文的做法是让LLM作为自主的搜索Agent，在这棵树上进行探索。LLM不是随意选择——它会基于对各个分支历史表现的分析，做出有信息量的决策。哪些路径值得深入探索，哪些应该剪枝，LLM自己判断。

论文聚焦的是一个特别有挑战性的场景：同时预测多种病原体的传播动态。

单一病原体的预测已经很难了。多病原体更复杂——不同病原体之间存在交互作用。比如，一个人感染了一种呼吸道病毒后，短期内对其他病毒的易感性会发生变化。学校放假、气候变化、人口流动这些因素对不同的病原体影响也不同。

LLM在这里的价值不是它比流行病学专家更懂疾病传播，而是它能同时在更大的假设空间中进行系统性的探索。专家可能会受限于自己熟悉的模型类别，而LLM可以跨类别、跨方法地进行组合和创新。

论文的一个关键设计是前瞻性验证——不是用历史数据回测（这容易过拟合），而是在真实的时间点上做实时预测，然后等待实际数据来验证。

这种验证方式在流行病学研究中非常重要。回测结果好不代表预测能力强——你可能只是记住了历史的模式。只有前瞻性的、实时的预测，才能真正检验一个模型的价值。

近期AI在科学领域的应用呈现出几个不同的范式：

替代范式：用AI完全替代传统的科学方法。比如用端到端模型直接预测结果，跳过物理/生物建模。这个方向争议很大，因为缺乏可解释性。

辅助范式：AI作为工具辅助科学家。比如加速计算、自动文献调研、生成假设。这个方向比较成熟，但AI的角色是"工具"而非"合作者"。

自主范式：AI自主进行科学探索。这是ARIS（上海交大的自主科研Agent）和这篇论文代表的方向。AI不只是执行命令，而是主动搜索假设空间、设计方案、做出决策。

LLM引导树搜索属于自主范式，但它比ARIS更聚焦——不是让LLM做全流程的科研，而是让它在特定的、结构化的搜索空间中做自主探索。

这篇论文展示了LLM在科学建模中的一种新角色：不是对话伙伴，不是文本生成器，而是自主的搜索Agent。

这种角色的转变很重要。当我们把LLM定位为"对话工具"时，我们对它的期望是"回答我的问题"。但当它成为"搜索Agent"时，我们对它的期望变成了"在我不指定的方向上做出有价值的探索"。

后者对LLM的要求更高。它需要有足够的领域理解来做出合理的搜索决策，需要有自我评估能力来判断哪些方向值得继续探索，还需要有跨知识领域进行组合创新的灵活性。

论文的前瞻性验证设计也值得肯定。在AI for Science这个领域，太多工作停留在回测阶段。只有前瞻性的、实时的验证，才能真正建立对AI预测能力的信任。

当然，这个方法也有局限性。LLM的搜索质量高度依赖于它的提示设计和搜索策略的设计。如果搜索空间定义得不合理，或者LLM的评估标准有偏差，搜索过程可能走向错误的方向。

但在正确的框架下，让AI自主探索科学假设空间——这个方向本身就足够令人兴奋。

主要来源：