人工评估
不同的 LLM 应用 ,有不同的业务目标,企业通常根据 LLM 应用的 input 和 output 内容来判断模型输出效果是否符合预期。Lighthouse 的人工评估功能,可以自定义评估维度(如准确性、简洁性、安全性等),并对每条 Trace、Span 数据进行多维度评分。帮助开发团队深入了 解模型表现、识别问题、并持续优化模型质量,确保企业推出真正符合业务目标的优质 LLM 应用。
目前,Lighthouse 支持对应用的 Trace 和 Span 数据进行人工评估。
快速开始
两步快速开始评估
步骤 1️⃣ : 进入「应用分析 - 目标应用 - 会话分析」模块,点击您要评估的 Trace 或者 Span 数据。进入详情页后,点击右上角「人工评估」按钮,添加您要评估的维度。
若没有合适的维度,下拉框底部可以直接「+ 新建维度」。
步骤 2️⃣ : 浏览当前 Trace 或者 Span 的详细数据,对已添加的评估维度输入合适的评分值。
评估结果会同步记录在 Trace 或者 Span 的详情页的第二个 Tab 「评估详情」里。若同一个评估维度被多次修改评分值,则只会记录最新的评分值。
三步体系化评估多条数据
若您已有体系化的评估维度、评估目标及标准,并且需要对多条数据进行评估,便可以使用「评估队列」功能进行人工评估。
步骤 1️⃣ : 进入「人工评估 - 评估维度」页面,创建多个所需的评估维度。
步骤 2️⃣ : 进入「应用分析 - 目标应用 - 会话分析」模块,通过快捷筛选过滤出您想要评估的 Trace 或者 Span 数据。批量选中这些数据,点击「添加至评估队列」后指定评估队列。
若没有合适的评估队列,下拉框底部可以直接「+ 新建队列」。填写必要的名称、选择评估维度,即可完成创建。
步骤 3️⃣ : 批量添加数据至目标评估队列后,进入「人工评估 - 评估队列」模块,进入目标评估队列,点击右上角「开始评估」,即可进入评估页面对刚刚添加的 Trace 或者 Span 数据,进行沉浸式 one-by-one 评估。
评估队列列表
进入「人工评估」模块,默认展示评估队列的列表页。
⬆️ 上方搜索框,可以通过评估队列名称快速筛选出目标数据。
⬅️ 左侧快捷筛选,可以根据关联应用快速筛选出目标数据。
➡️ 右侧数据列表,默认展示评估队列的名称、描述、待评估数量、已评估数量、关联应用、创建时间。拥有权限的成员,可以对其进行编辑、删除的操作。
新建评估队列
↗️ 单击「+ 新建评估队列」后,填写名称(必填)、描述、评估标准、评估维度即可完成创建。
- 评估标准:会出现在从队列进入的评估页面,在评估过程中起到提示的作用,有助于团队间的信息一致性。
- 评估维度:根据该队列的评估目标,设置需要的评估维度。从队列进入的评估页面,仅展示评估队列设置的评估维度,可直接评分。
评估队列详情
在「评估队列 列表页」单击某个队列,即可进入对应详情页。
⬅️ 左侧快捷筛选,可以根据状态快速筛选出目标数据。
➡️ 右侧数据表格,展示被加入到当前队列的 Trace 和 Span 数据,展示当前数据的状态、类型、名称、输入内容 、返回内容、当前队列设置的评分维度。
评估页面
有以下两种方式,可以对当前评估队列状态为 待评估
的数据进行评估。
对单条数据进行评估
单击评估队列数据表格中的状态为 待评估
的某条数据,即可进入该数据的评估页面。
⬅️ 左侧展示该数据的详情信息,右侧展示当前评估队列的评估标准和评估维度。用户查看左侧数据详情后,即可在右侧对不同维度进行评分。
评分完成后,即可点击 ↘️ 右下角「完成评估」,该数据的状态将会变更为 已完成
。
- 当前评估队列展示的评估维度存在空值,即部分维度没有进行评分,也可以「完成评估」。
- 「完成评估」后,状态不可回退。
对多条数据进行评估
单击「评估队列 列表页」 ➡️ 右侧的「开始评估」,即可对当前评估队列中状态为 待评估
的数据,进行沉浸式 one-by-one 评估。
当前数据完成评分后,即可点击 ↘️ 右下角「完成评估,下一个」,当前数据的状态将会变更为 已完成
,并且会进入下一个 待评估
的数据的页面。
除此之外,在右下角增加了「当前数据序号/待评估数据总量」、「上一个」、「跳过」的功能。
评估维度
在人工评估模块下创建的评估维度,仅用于人工评估功能。
单击「新建评估维度」,填写名称,选择类型,并根据提示补充说所需内容,即可完成创建。目前支持四种类型的评估维度:数值、分类、布尔和文本。
- 评估维度名称不可重复。
- 评估维度成功创建后,暂不可修改和删除。