人工评估
不同的 LLM 应用 ,有不同的业务目标,企业通常根据 LLM 应用的 input 和 output 内容来判断模型输出效果是否符合预期。Lighthouse 的人工评估功能,可以自定义评估维度(如准确性、简洁性、安全性等),并对每条 Trace、Span 数据进行多维度评分。帮助开发团队深 入了解模型表现、识别问题、并持续优化模型质量,确保企业推出真正符合业务目标的优质 LLM 应用。
目前,Lighthouse 支持对应用的 Trace 和 Span 数据进行人工评估。
快速开始
两步快速开始评估
步骤 1️⃣ : 进入「应用分析 - 目标应用 - 会话分析」模块,点击您要评估的 Trace 或者 Span 数据。进入详情页后,点击右上角「人工评估」按钮,添加您要评估的维度。
若没有合适的维度,下拉框底部可以直接「+ 新建维度」。
步骤 2️⃣ : 浏览当前 Trace 或者 Span 的详细数据,对已添加的评估维度输入合适的评分值。
评估结果会同步记录在 Trace 或者 Span 的详情页的第二个 Tab 「评估详情」里。若同一个评估维度被多次修改评分值,则只会记录最新的评分值。
三步体系化评估多条数据
若您已有体系化的评估维度、评估目标及标准,并且需要对多条数据进行评估,便 可以使用「评估队列」功能进行人工评估。
步骤 1️⃣ : 进入「人工评估 - 评估维度」页面,创建多个所需的评估维度。
步骤 2️⃣ : 进入「应用分析 - 目标应用 - 会话分析」模块,通过快捷筛选过滤出您想要评估的 Trace 或者 Span 数据。批量选中这些数据,点击「添加至评估队列」后指定评估队列。
若没有合适的评估队列,下拉框底部可以直接「+ 新建队列」。填写必要的名称、选择评估维度,即可完成创建。
步骤 3️⃣ : 批量添加数据至目标评估队列后,进入「人工评估 - 评估队列」模块,进入目标评估队列,点击右上角「开始评估」,即可进入评估页面对刚刚添加的 Trace 或者 Span 数据,进行沉浸式 one-by-one 评估。
评估队列列表
进入「人工评估」模块,默认展示评估队列的列表页。
⬆️ 上方搜索框,可以通过评估队列名称快速筛选出目标数据。
⬅️ 左侧快捷筛选,可以根据关联应用快速筛选出目标数据。
➡️ 右侧数据列表,默认展示评估队列的名称、描述、待评估数量、已评估数量、关联应用、创建时间。拥有权限的成员,可以对其进行编辑、删除的操作。