多家公司算法工程师大模型评估 2026-06-14

大模型应用面试里的评估怎么讲：别只说人工打分

大模型应用真正难的是评估。面试里要讲清好答案如何定义、坏例如何积累、上线后如何持续发现问题。

大模型应用面试里，评估是非常容易被深挖的点。很多候选人会说“人工打分”或“看用户反馈”，但面试官会继续问：谁来打分？标准是什么？事实错误怎么发现？模型拒答算不算失败？不同场景的好答案是否一样？

大模型评估的难点在于，答案不是简单的对错。一个客服答案要准确、清楚、符合政策；一个代码助手要能运行、能解释、不能误导；一个知识库问答要基于资料，资料不足时应该拒答。

先定义什么是好答案

评估之前要先定义标准。可以从几个维度讲：事实是否正确，是否引用了可靠资料，是否回答了用户问题，结构是否清晰，是否存在不应该输出的内容，是否在资料不足时拒答。不同业务权重不同，不要用一套标准评价所有场景。

比如内部知识库问答，事实一致性比表达华丽更重要；营销文案生成，风格和可读性可能更重要；客服场景，还要看合规和用户情绪。

一次人工打分只能说明当前样本表现。真正有价值的是持续积累坏例集。坏例可以来自用户点踩、人工抽检、线上投诉、模型拒答、工具调用失败、答案格式错误。每个坏例都要标注原因：资料没召回、模型编造、提示词不清、工具返回异常、业务规则缺失。

有了坏例集，后续改模型、改检索、改提示词、改规则时，才能回归测试，避免修了一个问题又引入另一个问题。

可以用规则或模型辅助评估，但不能完全相信。规则适合检查格式、字段、敏感词、引用是否存在；模型评估可以辅助判断语义质量，但也会有误判。高风险场景仍然需要人工抽检或业务专家复核。

面试里可以说：我们会把自动评估当作第一层筛查，把高风险、低置信度或用户反馈差的样本交给人工复核。这样比简单说“用模型评估模型”更稳。

上线后要看回答可用率、拒答率、用户追问率、点踩率、人工转接率、事实错误反馈、平均响应时间和成本。注意这些指标可能冲突：拒答率太低，可能模型在资料不足时乱答；拒答率太高，用户又会觉得不好用。

一段好的面试表达可以是：我会先按业务定义好答案标准，再构建评测集和坏例集。每次改检索、提示词或模型版本，都用坏例集回归。线上通过用户反馈、人工抽检和自动规则持续发现问题，把问题归因到资料召回、生成、工具调用或业务规则。大模型应用不是上线一次就结束，评估体系决定它能不能持续改进。

大模型评估如果只说人工打分，会显得很粗。不同场景的好答案标准不一样：客服要准确和可执行，代码助手要能运行，知识问答要有证据，营销文案要符合风格。

事实正确：关注点是有没有编造，评估方式是标准答案、引用证据、人工复核，风险是模型自评容易虚高。可执行性：关注点是用户能不能照做，评估方式是任务完成率和人工检查，风险是只看流畅度会误判。

更专业的说法是：我会维护一批坏例集，每次改提示词、模型或检索策略都跑回归。没有回归集，优化很容易只修好一个问题又引入另一个问题。