人工评估

不同的 LLM 应用，有不同的业务目标，企业通常根据 LLM 应用的 input 和 output 内容来判断模型输出效果是否符合预期。Lighthouse 的人工评估功能，可以自定义评估维度（如准确性、简洁性、安全性等），并对每条 Trace、Span 数据进行多维度评分。帮助开发团队深入了解模型表现、识别问题、并持续优化模型质量，确保企业推出真正符合业务目标的优质 LLM 应用。

目前，Lighthouse 支持对应用的 Trace 和 Span 数据进行人工评估。

快速开始

两步快速开始评估

步骤 1️⃣ ： 进入「应用分析 - 目标应用 - 会话分析」模块，点击您要评估的 Trace 或者 Span 数据。进入详情页后，点击右上角「人工评估」按钮，添加您要评估的维度。

若没有合适的维度，下拉框底部可以直接「+ 新建维度」。

步骤 2️⃣ ： 浏览当前 Trace 或者 Span 的详细数据，对已添加的评估维度输入合适的评分值。

评估结果会同步记录在 Trace 或者 Span 的详情页的第二个 Tab 「评估详情」里。若同一个评估维度被多次修改评分值，则只会记录最新的评分值。

三步体系化评估多条数据

若您已有体系化的评估维度、评估目标及标准，并且需要对多条数据进行评估，便可以使用「评估队列」功能进行人工评估。

步骤 1️⃣ ： 进入「人工评估 - 评估维度」页面，创建多个所需的评估维度。

步骤 2️⃣ ： 进入「应用分析 - 目标应用 - 会话分析」模块，通过快捷筛选过滤出您想要评估的 Trace 或者 Span 数据。批量选中这些数据，点击「添加至评估队列」后指定评估队列。

若没有合适的评估队列，下拉框底部可以直接「+ 新建队列」。填写必要的名称、选择评估维度，即可完成创建。

步骤 3️⃣ ： 批量添加数据至目标评估队列后，进入「人工评估 - 评估队列」模块，进入目标评估队列，点击右上角「开始评估」，即可进入评估页面对刚刚添加的 Trace 或者 Span 数据，进行沉浸式 one-by-one 评估。

评估队列列表

进入「人工评估」模块，默认展示评估队列的列表页。

⬆️ 上方搜索框，可以通过评估队列名称快速筛选出目标数据。

⬅️ 左侧快捷筛选，可以根据关联应用快速筛选出目标数据。

➡️ 右侧数据列表，默认展示评估队列的名称、描述、待评估数量、已评估数量、关联应用、创建时间。拥有权限的成员，可以对其进行编辑、删除的操作。

新建评估队列

↗️ 单击「+ 新建评估队列」后，填写名称（必填）、描述、评估标准、评估维度即可完成创建。

评估标准：会出现在从队列进入的评估页面，在评估过程中起到提示的作用，有助于团队间的信息一致性。
评估维度：根据该队列的评估目标，设置需要的评估维度。从队列进入的评估页面，仅展示评估队列设置的评估维度，可直接评分。

评估队列详情

在「评估队列列表页」单击某个队列，即可进入对应详情页。

⬅️ 左侧快捷筛选，可以根据状态快速筛选出目标数据。

➡️ 右侧数据表格，展示被加入到当前队列的 Trace 和 Span 数据，展示当前数据的状态、类型、名称、输入内容、返回内容、当前队列设置的评分维度。

评估页面

有以下两种方式，可以对当前评估队列状态为 待评估 的数据进行评估。

对单条数据进行评估

单击评估队列数据表格中的状态为 待评估 的某条数据，即可进入该数据的评估页面。

⬅️ 左侧展示该数据的详情信息，右侧展示当前评估队列的评估标准和评估维度。用户查看左侧数据详情后，即可在右侧对不同维度进行评分。

评分完成后，即可点击 ↘️ 右下角「完成评估」，该数据的状态将会变更为 已完成 。

注意

当前评估队列展示的评估维度存在空值，即部分维度没有进行评分，也可以「完成评估」。
「完成评估」后，状态不可回退。

对多条数据进行评估

单击「评估队列列表页」 ➡️ 右侧的「开始评估」，即可对当前评估队列中状态为 待评估 的数据，进行沉浸式 one-by-one 评估。

当前数据完成评分后，即可点击 ↘️ 右下角「完成评估，下一个」，当前数据的状态将会变更为 已完成 ，并且会进入下一个 待评估 的数据的页面。

除此之外，在右下角增加了「当前数据序号/待评估数据总量」、「上一个」、「跳过」的功能。

评估维度

在人工评估模块下创建的评估维度，仅用于人工评估功能。

单击「新建评估维度」，填写名称，选择类型，并根据提示补充说所需内容，即可完成创建。目前支持四种类型的评估维度：数值、分类、布尔和文本。

提示

评估维度名称不可重复。
评估维度成功创建后，暂不可修改和删除。

快速开始​

两步快速开始评估​

三步体系化评估多条数据​

评估队列列表​

新建评估队列​

评估队列详情​

评估页面​

对单条数据进行评估​

对多条数据进行评估​

评估维度​