第三方ds横评
完整回复率+截断率+无回复率=100%
完整回复率:模型给出完整回复,不存在截断、无响应等问题,但不考虑答案正确与否;再除以总题目数得出比例。
截断率:模型在回复过程中出现断开的情况,未给出完整的答案;前者再除以总题目数得出比例。
无回复率:模型由于特殊原因,如无响应/请求出错,未给出答案;前者再除以总题目数得出比例。
准确率:对于模型给出完整回复的题目,模型的答案与正确答案一致的比例;正确答案,只看最终答案,不检查解题过程。
推理耗时(秒/题):对于模型给出完整回复的题目,模型推理出每题答案所用的平均时间。