Skip to main content

自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。

目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。

快速开始

快速对应用 Traces 进行自动评估

准备工作: 开始自动评估前,需要提前准备的有:数据成功上报的 LLM 应用模型 API自定义自动评估维度

步骤 1️⃣ : 进入「自动评估 - 评估器」页面,单击「+ 新建评估器」,按提示填写目标数据、选择评估模型、自动评估维度。

必要信息,即可完成创建。

步骤 2️⃣ : 根据所选评估维度中的 Prompt 涉及的变量,指定变量映射。

步骤 3️⃣ : 单击「保存」后,即可完成创建。此时,评估器自动启用。

成功创建后,若所选择的目标应用有新的 Trace 数据上报,评估器则会自动对其进行评估,并给出评分值。

快速对数据集进行自动评估

跳转到数据集文档查看

评估器

评估器列表

img

进入「自动评估」模块,默认展示评估器的列表页。

⬆️ 上方搜索框,可以通过评估器名称快速筛选出目标数据。

⬅️ 左侧快捷筛选,可以根据状态、所选模型、评估维度、目标数据、关联应用、关联数据集,快速筛选出目标数据。

➡️ 右侧数据列表,默认展示评估器的状态、名称、所选模型、评估维度、目标数据、关联应用、关联数据集、创建时间。拥有权限的成员,可以对其进行开启、禁用、删除的操作。

warning

状态为不可用的评估器,无法进行开启、禁用的操作。

不可用的原因,主要是该评估器的配置内容被删除。例如,所选模型被删除、所选自动评估维度被删除等。

新建评估器

img

↗️ 单击「+ 新建评估器」后,按提示填写必要信息,即可完成创建。此时,评估器自动启用。涉及到的信息说明如下:

  • 评估器名称:不可重复。
  • 目标数据
    • 应用 Traces:可以选择对所有应用生效,或者是指定应用。(注意:仅对新数据生效。
    • 数据集:选择数据集后,当前评估器可以在「数据集」模块被使用。
  • 模型设置:可选用的模型,来源于「模型 API」模块。若没有合适的,连接器下拉框底部可以直接「+ 新建连接器」,创建成功后即可选用。
  • 自动评估维度:选择已有的自定义自动评估维度。若没有合适的,下拉框底部可以直接「+ 新建维度」,创建成功后即可选用。

    若所选评估维度中的 Prompt 内容有涉及到变量,需要指定变量映射。

  • 采样率:默认 100%,可以按需调整。
  • 描述(可选填):补充说明当前评估器的信息。
提示

一个评估器,只能配置一个评估模型、一个自动评估维度。

评估器详情

img

在「评估器列表页」单击某个评估器名称,即可进入对应详情页。

单击 ↖️ 左上角评估器名称或 ↗️ 右上角“设置”按钮,即可查看当前评估器的配置详情。拥有权限的成员,可以对当前评估器进行开启、禁用、删除的操作。

下方数据表格,展示当前评估器相关执行记录,包括每条数据状态、评估开始时间、评估结束时间、评估维度、评分值、评分原因、报错信息。

鼠标悬浮在某行数据时。下方数据列会出现功能按钮:

  • Trace ID列:可以查看被评估的 Trace。
  • 评分值列:可以查看评估 Trace。

    注意:“待处理”状态的数据,Trace 详情页无内容展示。

danger

删除评估器,相关记录会被删除,且无法恢复。

同时,与其关联的正在运行的数据集实验功能,将会报错。

评估维度

img

在自动评估模块下创建的评估维度,仅用于自动评估功能。系统模板仅供参考,自动评估相关功能只能调用自定义维度。(将系统模板克隆为自定义评估维度,即可使用。)

↗️ 单击「新建自定义维度」,填写必要的名称、评估 Prompt 内容,即可完成创建。同时也可以克隆现有评估维度,在此基础上进行修改后保存创建。

提示
  1. 自定义评估维度之间,名称不可重复。
  2. 评估维度成功创建后,暂不可修改和删除。
  3. 评分值范围默认取 0.0 到 1.0。1.0 代表评分结果是积极、正向的,0.0 代表评分结果是消极、负面的。