模型推理的三个步骤
自去年OpenAI推出的o系列大模型强化了推理能力后,行业迅速朝向这一方向迈进。今年,随着DeepSeek的火热发展,推理模型已然成为行业瞩目的焦点。
对于未曾深入了解的读者来说,推理模型似乎是一个全新的概念。那么,何为推理模型?它又有哪些独特之处?与通用大模型相比有何不同?未来又将走向何方?接下来,请跟随司普科技1号解说员小司一起探索。
推理模型,顾名思义,是指具备推理能力的大语言模型。目前业内对其有多种称呼,如“Understanding Reasoning LLMs”、“Reasoning models”等。其核心在于面对复杂任务场景时,能够通过多步骤推理生成答案。与通用大模型不同的是,推理模型在后训练或在线推理阶段可以加大资源投入,提升模型性能。正因如此,它被视为大语言模型发展的新方向,一种全新的scaling law范式。
行业普遍认为,推理模型的起源可以追溯到OpenAI的o1模型。在经历谷歌Gemini 2.0 Flash Thinking、QwQ-32B-Preview等推理实验模型的迭代后,DeepSeek-R1的推出标志着推理模型的全面爆发。如今,打造高能力的推理模型正成为OpenAI等众多大模型厂商的重点发展方向。这也意味着大模型的能力和性能迎来了全新的阶段,实现了从“结果导向”到“结果和推理过程并重”的转变。
通过观察推理模型的运行方式和结果展示,我们可以发现其两大显著特点:
复杂任务/场景适应性强。推理模型擅长将复杂问题/任务分解,高度还原人类的思维过程。例如尝试和验证不同的方法直至找到最佳解决方案并输出。这种特性使得推理模型在新问题中的泛化能力和鲁棒性更强。这也是其从语言学拓展至STEM(科学,技术,工程,数学)领域,并在各领域快速渗透的内在动因。
可解释性更强。不同于以往直接输出答案的方式,推理模型会详细、分步骤地展示推理过程,解释答案的由来。虽然最终答案可能与通用大模型的答案相似,但推理过程的公开透明使得大众对大模型的疑虑得到一定程度的消解,增强了答案的可信度和可解释性。即使输出结果有偏差,通过检查和纠正推理步骤也能更快发现问题,整个过程更加可控。
这两大特点进一步衍生出推理模型的其他特征。例如其擅长逻辑推理但面对简单任务时可能导致思考过度、响应较慢;创造力突出但也可能加剧模型幻觉的发生。以DeepSeek-R1为例,在Vectara的HHEM人工智能幻觉测试中,其幻觉率相对较高。虽然这可能与测的匹配度有关(推理模型更擅长理科任务),但在专业场景及精细化业务场景中高幻觉率显然是一大挑战。推理模型的推理时间可能较长、算力资源消耗较大。因此其订阅费用相对较高,但随着新一批推理模型的普及化个人免费使用已成为可能。