跳到主要内容

人工评估

不同的 LLM 应用 ,有不同的业务目标,企业通常根据 LLM 应用的 input 和 output 内容来判断模型输出效果是否符合预期。Lighthouse 的人工评估功能,可以自定义评估维度(如准确性、简洁性、安全性等),并对每条 Trace、Span 数据进行多维度评分。帮助开发团队深入了解模型表现、识别问题、并持续优化模型质量,确保企业推出真正符合业务目标的优质 LLM 应用。

目前,Lighthouse 支持对应用的 Trace 和 Span 数据进行人工评估。

快速开始

两步快速开始评估

步骤 1️⃣ : 进入「应用分析 - 目标应用 - 会话分析」模块,点击您要评估的 Trace 或者 Span 数据。进入详情页后,点击右上角「人工评估」按钮,添加您要评估的维度。

若没有合适的维度,下拉框底部可以直接「+ 新建维度」。

步骤 2️⃣ : 浏览当前 Trace 或者 Span 的详细数据,对已添加的评估维度输入合适的评分值。

评估结果会同步记录在 Trace 或者 Span 的详情页的第二个 Tab 「评估详情」里。若同一个评估维度被多次修改评分值,则只会记录最新的评分值。

img

三步体系化评估多条数据

若您已有体系化的评估维度、评估目标及标准,并且需要对多条数据进行评估,便可以使用「评估队列」功能进行人工评估。

步骤 1️⃣ : 进入「人工评估 - 评估维度」页面,创建多个所需的评估维度。

步骤 2️⃣ : 进入「应用分析 - 目标应用 - 会话分析」模块,通过快捷筛选过滤出您想要评估的 Trace 或者 Span 数据。批量选中这些数据,点击「添加至评估队列」后指定评估队列。

若没有合适的评估队列,下拉框底部可以直接「+ 新建队列」。填写必要的名称、选择评估维度,即可完成创建。

步骤 3️⃣ : 批量添加数据至目标评估队列后,进入「人工评估 - 评估队列」模块,进入目标评估队列,点击右上角「开始评估」,即可进入评估页面对刚刚添加的 Trace 或者 Span 数据,进行沉浸式 one-by-one 评估。

评估队列列表

进入「人工评估」模块,默认展示评估队列的列表页。

⬆️ 上方搜索框,可以通过评估队列名称快速筛选出目标数据。

⬅️ 左侧快捷筛选,可以根据关联应用快速筛选出目标数据。

➡️ 右侧数据列表,默认展示评估队列的名称、描述、待评估数量、已评估数量、关联应用、创建时间。拥有权限的成员,可以对其进行编辑、删除的操作。

img

新建评估队列

↗️ 单击「+ 新建评估队列」后,填写名称(必填)、描述、评估标准、评估维度即可完成创建。

  • 评估标准:会出现在从队列进入的评估页面,在评估过程中起到提示的作用,有助于团队间的信息一致性。
  • 评估维度:根据该队列的评估目标,设置需要的评估维度。从队列进入的评估页面,仅展示评估队列设置的评估维度,可直接评分。

img

评估队列详情

在「评估队列 列表页」单击某个队列,即可进入对应详情页。

⬅️ 左侧快捷筛选,可以根据状态快速筛选出目标数据。

➡️ 右侧数据表格,展示被加入到当前队列的 Trace 和 Span 数据,展示当前数据的状态、类型、名称、输入内容、返回内容、当前队列设置的评分维度。

img

评估页面

有以下两种方式,可以对当前评估队列状态为 待评估 的数据进行评估。

对单条数据进行评估

单击评估队列数据表格中的状态为 待评估 的某条数据,即可进入该数据的评估页面。

⬅️ 左侧展示该数据的详情信息,右侧展示当前评估队列的评估标准和评估维度。用户查看左侧数据详情后,即可在右侧对不同维度进行评分。

评分完成后,即可点击 ↘️ 右下角「完成评估」,该数据的状态将会变更为 已完成

注意
  1. 当前评估队列展示的评估维度存在空值,即部分维度没有进行评分,也可以「完成评估」。
  2. 「完成评估」后,状态不可回退。

对多条数据进行评估

img

单击「评估队列 列表页」 ➡️ 右侧的「开始评估」,即可对当前评估队列中状态为 待评估 的数据,进行沉浸式 one-by-one 评估。

当前数据完成评分后,即可点击 ↘️ 右下角「完成评估,下一个」,当前数据的状态将会变更为 已完成 ,并且会进入下一个 待评估 的数据的页面。

除此之外,在右下角增加了「当前数据序号/待评估数据总量」、「上一个」、「跳过」的功能。

评估维度

在人工评估模块下创建的评估维度,仅用于人工评估功能。

单击「新建评估维度」,填写名称,选择类型,并根据提示补充说所需内容,即可完成创建。目前支持四种类型的评估维度:数值、分类、布尔和文本。

提示
  1. 评估维度名称不可重复。
  2. 评估维度成功创建后,暂不可修改和删除。