1. 首页
  2. 面试专题
  3. 文章列表
多家公司 算法工程师 大模型评估 2026-06-14

大模型应用面试里的评估怎么讲:别只说人工打分

大模型应用真正难的是评估。面试里要讲清好答案如何定义、坏例如何积累、上线后如何持续发现问题。

大模型应用面试里,评估是非常容易被深挖的点。很多候选人会说“人工打分”或“看用户反馈”,但面试官会继续问:谁来打分?标准是什么?事实错误怎么发现?模型拒答算不算失败?不同场景的好答案是否一样?

大模型评估的难点在于,答案不是简单的对错。一个客服答案要准确、清楚、符合政策;一个代码助手要能运行、能解释、不能误导;一个知识库问答要基于资料,资料不足时应该拒答。

先定义什么是好答案

评估之前要先定义标准。可以从几个维度讲:事实是否正确,是否引用了可靠资料,是否回答了用户问题,结构是否清晰,是否存在不应该输出的内容,是否在资料不足时拒答。不同业务权重不同,不要用一套标准评价所有场景。

比如内部知识库问答,事实一致性比表达华丽更重要;营销文案生成,风格和可读性可能更重要;客服场景,还要看合规和用户情绪。

坏例集比一次评测更重要

一次人工打分只能说明当前样本表现。真正有价值的是持续积累坏例集。坏例可以来自用户点踩、人工抽检、线上投诉、模型拒答、工具调用失败、答案格式错误。每个坏例都要标注原因:资料没召回、模型编造、提示词不清、工具返回异常、业务规则缺失。

有了坏例集,后续改模型、改检索、改提示词、改规则时,才能回归测试,避免修了一个问题又引入另一个问题。

自动评估要谨慎

可以用规则或模型辅助评估,但不能完全相信。规则适合检查格式、字段、敏感词、引用是否存在;模型评估可以辅助判断语义质量,但也会有误判。高风险场景仍然需要人工抽检或业务专家复核。

面试里可以说:我们会把自动评估当作第一层筛查,把高风险、低置信度或用户反馈差的样本交给人工复核。这样比简单说“用模型评估模型”更稳。

线上反馈要能闭环

上线后要看回答可用率、拒答率、用户追问率、点踩率、人工转接率、事实错误反馈、平均响应时间和成本。注意这些指标可能冲突:拒答率太低,可能模型在资料不足时乱答;拒答率太高,用户又会觉得不好用。

一段好的面试表达可以是:我会先按业务定义好答案标准,再构建评测集和坏例集。每次改检索、提示词或模型版本,都用坏例集回归。线上通过用户反馈、人工抽检和自动规则持续发现问题,把问题归因到资料召回、生成、工具调用或业务规则。大模型应用不是上线一次就结束,评估体系决定它能不能持续改进。

评估要分事实、体验和业务

大模型评估如果只说人工打分,会显得很粗。不同场景的好答案标准不一样:客服要准确和可执行,代码助手要能运行,知识问答要有证据,营销文案要符合风格。

维度关注点评估方式风险
事实正确有没有编造标准答案、引用证据、人工复核模型自评容易虚高
可执行性用户能不能照做任务完成率和人工检查只看流畅度会误判
安全边界是否越权或乱承诺拒答和权限用例过度回答带来风险
业务效果是否减少成本或提升转化线上指标和用户反馈指标可能受流量影响

更专业的说法是:我会维护一批坏例集,每次改提示词、模型或检索策略都跑回归。没有回归集,优化很容易只修好一个问题又引入另一个问题。