自动评估
Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开 发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。
目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。
快速开始
快速对应用 Traces 进行自动评估
准备工作: 开始自动评估前,需要提前准备的有:数据成功上报的 LLM 应用、模型 API、自定义自动评估维度。
步骤 1️⃣ : 进入「自动评估 - 评估器」页面,单击「+ 新建评估器」,按提示填写目标数据、选择评估模型、自动评估维度。
必要信息,即可完成创建。
步骤 2️⃣ : 根据所选评估维度中的 Prompt 涉及的变量,指定变量映射。
步骤 3️⃣ : 单击「保存」后,即可完成创建。此时,评估器自动启用。
成功创建后,若所选择的目标应用有新的 Trace 数据上报,评估器则会自动对其进行评估,并给出评分值。
快速对数据集进行自动评估
跳转到数据集文档查看
评估器
评估器列表
进入「自动评估」模块,默认展示评估器的列表页。
⬆️ 上方搜索框,可以通过评估器名称快速筛选出目标数据。
⬅️ 左侧快捷筛选,可以根据状态、所选模型、评估维度、目标数据、关联应用、关联数据集,快速筛选出目标数据。
➡️ 右侧数据列表,默认展示评估器的状态、名称、所选模型、评估维度、目标数据、关联应用、关联数据集、创建时间。拥有权限的成员,可以对其进行开启、禁用、删除的操作。
状态为不可用的评估器,无法进行开启、禁用的操作。
不可用的原因,主要是该评估器的配置内容被删除。例如,所选模型被删除、所选自动评估维度被删除等。
新建评估器
↗️ 单击「+ 新建评估器」后,按提示填写必要信息,即可完成创建。此时,评估器自动启用。涉及到的信息说明如下:
- 评估器名称:不可重复。
- 目标数据:
- 应用 Traces:可以选择对所有应用生效,或者是指定应用。(注意:仅对新数据生效。)
- 数据集:选择数据集后,当前评估器可以在「数据集」模块被使用。
- 模型设置:可选用的模型,来源于「模型 API」模块。若没有合适的,连接器下拉框底 部可以直接「+ 新建连接器」,创建成功后即可选用。
- 自动评估维度:选择已有的自定义自动评估维度。若没有合适的,下拉框底部可以直接「+ 新建维度」,创建成功后即可选用。
若所选评估维度中的 Prompt 内容有涉及到变量,需要指定变量映射。
- 采样率:默认 100%,可以按需调整。
- 描述(可选填):补充说明当前评估器的信息。
一个评估器,只能配置一个评估模型、一个自动评估维度。
评估器详情
在「评估器列表页」单击某个评估器名称,即可进入对应详情页。
单击 ↖️ 左上角评估器名称或 ↗️ 右上角“设置”按钮,即可查看当前评估器的配置详情。拥有权限的成员,可以对当前评估器进行开启、禁用、删除的操作。
下方数据表格,展示当前评估器相关执行记录,包括每条数据状态、评估开始时间、评估结束时间、评 估维度、评分值、评分原因、报错信息。
鼠标悬浮在某行数据时。下方数据列会出现功能按钮:
- Trace ID列:可以查看被评估的 Trace。
- 评分值列:可以查看评估 Trace。
注意:“待处理”状态的数据,Trace 详情页无内容展示。
删除评估器,相关记录会被删除,且无法恢复。
同时,与其关联的正在运行的数据集实验功能,将会报错。
评估维度
在自动评估模块下创建的评估维度,仅用于自动评估功能。系统模板仅供参考,自动评估相关功能只能调用自定义维度。(将系统模板克隆为自定义评估维度,即可使用。)
↗️ 单击「新建自定义维度」,填写必要的名称、评估 Prompt 内容,即可完成创建。同时也可以克隆现有评估维度,在此基础上进行修改后保存创建。
- 自定义评估维度之间,名称不可重复。
- 评估维度成功创建后,暂不可修改和删除。
- 评分值范围默认取 0.0 到 1.0。1.0 代表评分结果是积极、正向的,0.0 代表评分结果是消极、负面的。