自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能，是基于评估器（Evaluator）实现的。通过评估器，可以配置评估的目标数据、评估模型、评估维度，按照设定的规则，对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求，快速调整策略，从而加速产品迭代，确保应用的性能和功能符合业务目标。

目前，Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时，系统内置了多种常用的评估维度模板，提高用户上手速度。

快速开始

快速对应用 Traces 进行自动评估

准备工作： 开始自动评估前，需要提前准备的有：数据成功上报的 LLM 应用、模型 API、自定义自动评估维度。

步骤 1️⃣ ： 进入「自动评估 - 评估器」页面，单击「+ 新建评估器」，按提示填写目标数据、选择评估模型、自动评估维度。

必要信息，即可完成创建。

步骤 2️⃣ ： 根据所选评估维度中的 Prompt 涉及的变量，指定变量映射。

步骤 3️⃣ ： 单击「保存」后，即可完成创建。此时，评估器自动启用。

成功创建后，若所选择的目标应用有新的 Trace 数据上报，评估器则会自动对其进行评估，并给出评分值。

快速对数据集进行自动评估

跳转到数据集文档查看

评估器

评估器列表

进入「自动评估」模块，默认展示评估器的列表页。

⬆️ 上方搜索框，可以通过评估器名称快速筛选出目标数据。

⬅️ 左侧快捷筛选，可以根据状态、所选模型、评估维度、目标数据、关联应用、关联数据集，快速筛选出目标数据。

➡️ 右侧数据列表，默认展示评估器的状态、名称、所选模型、评估维度、目标数据、关联应用、关联数据集、创建时间。拥有权限的成员，可以对其进行开启、禁用、删除的操作。

warning

状态为不可用的评估器，无法进行开启、禁用的操作。

不可用的原因，主要是该评估器的配置内容被删除。例如，所选模型被删除、所选自动评估维度被删除等。

新建评估器

↗️ 单击「+ 新建评估器」后，按提示填写必要信息，即可完成创建。此时，评估器自动启用。涉及到的信息说明如下：

评估器名称：不可重复。
目标数据：
- 应用 Traces：可以选择对所有应用生效，或者是指定应用。（注意：仅对新数据生效。）
- 数据集：选择数据集后，当前评估器可以在「数据集」模块被使用。
模型设置：可选用的模型，来源于「模型 API」模块。若没有合适的，连接器下拉框底部可以直接「+ 新建连接器」，创建成功后即可选用。
自动评估维度：选择已有的自定义自动评估维度。若没有合适的，下拉框底部可以直接「+ 新建维度」，创建成功后即可选用。

若所选评估维度中的 Prompt 内容有涉及到变量，需要指定变量映射。
采样率：默认 100%，可以按需调整。
描述（可选填）：补充说明当前评估器的信息。

提示

一个评估器，只能配置一个评估模型、一个自动评估维度。

评估器详情

在「评估器列表页」单击某个评估器名称，即可进入对应详情页。

单击 ↖️ 左上角评估器名称或 ↗️ 右上角“设置”按钮，即可查看当前评估器的配置详情。拥有权限的成员，可以对当前评估器进行开启、禁用、删除的操作。

下方数据表格，展示当前评估器相关执行记录，包括每条数据状态、评估开始时间、评估结束时间、评估维度、评分值、评分原因、报错信息。

鼠标悬浮在某行数据时。下方数据列会出现功能按钮：

Trace ID列：可以查看被评估的 Trace。
评分值列：可以查看评估 Trace。

注意：“待处理”状态的数据，Trace 详情页无内容展示。

danger

删除评估器，相关记录会被删除，且无法恢复。

同时，与其关联的正在运行的数据集实验功能，将会报错。

评估维度

在自动评估模块下创建的评估维度，仅用于自动评估功能。系统模板仅供参考，自动评估相关功能只能调用自定义维度。（将系统模板克隆为自定义评估维度，即可使用。）

↗️ 单击「新建自定义维度」，填写必要的名称、评估 Prompt 内容，即可完成创建。同时也可以克隆现有评估维度，在此基础上进行修改后保存创建。

提示

自定义评估维度之间，名称不可重复。
评估维度成功创建后，暂不可修改和删除。
评分值范围默认取 0.0 到 1.0。1.0 代表评分结果是积极、正向的，0.0 代表评分结果是消极、负面的。