自动评估
Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业 在开发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。
目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。
两步快速开始
准备工作: 开始自动评估前,需要提前准备的有:数据成功上报的 LLM 应用、模型 API。
步骤 1️⃣ : 进入「自动评估 - 评估器」页面,单击「+ 新建评估器」,按提示选择必要的评估 Prompt、评估模型。
步骤 2️⃣ : 进入「自动评估 - 评估任务」页面,单击「+ 新建评估任务」,按提示填写必要信息。成功创建后,即可在「评估任务列表」看到新建的评估任务。等评估任务开始执行后,即可看到评估数据。
评估任务
自动评估任务,提供了对 LLM 应用数据评估能力,帮您评估应用的质量表现。
评估任务列表
进入「自动评估」模块,默认展示评估任务的列表页。
⬆️ 上方搜索框,可以通过评估任务名称快速筛选出目标数据。
⬅️ 左侧快捷筛选,可以根据状态、类型、评估器、关联应用,快速筛选出目标数据。
➡️ 右侧数据列表,默认展示评估任务的状态、名称、类型、评估器、关联应用、创建时间。拥有权限的成员,可以对其进行克隆、删除的操作。
删除评估任务,相关记录会被删除,且无法恢复。
新建评估任务
↗️ 单击「+ 新建评估任务」后,按提示填写必要信息,即可完成创建。涉及到的信息说明如下:
- 评估任务类型:目前可选两种,持续性或一次性。(周期 性正在开发中)
- 评估任务名称:不可重复。
- 目标数据:指定被评估的数据。
- 会话数据类型:可选应用 Traces 或应用 Spans。
- 应用范围:指定应用或者所有应用。
所有应用:当前及未来新建的所用 LLM 应用。
- 任务规则:根据所选评估任务类型,需要配置相应的任务规则。
- 持续性任务规则:指定某个时间开始,对新产生的目标数据进行评估。(任务执行时间,不能早于新建任务时间。)
- 一次性任务规则:指定某个时间开始,对指定时间范围内的目标数据进行评估。(任务执行时间,要晚于所选目标数据的结束时间)
- 评估器:可选择多个评估器,对目标数据进行评估。
- 采样率:默认 100%,可以按需调整。
- 描述(可选填):补充说明当前评估任务的信息。
持续性任务执行过程中,可以手动暂停;暂停状态时,可再次开始执行。
一次性任务执行过程中,不支持暂停。任务完成后,会自动转为完成状态。