数据集

在 Lighthouse 平台的 LLM 可观测模块，「数据集」指的是一组用于评估大模型在特定任务上的输出表现，这些数据集通常包含一系列的输入内容（Input）和输出参考答案(Reference Output)。

基于数据集，便可以进行实验。实验是指，通过组合数据集、Prompt、模型设置、评估器（可选），实现在给定的 Prompt 下，对模型输入范例的 Input 内容，得到模型返回的 Output 内容。若配置了评估器，还会对每条数据进行评估，并给出评分值。

通过分析实验结果，可以找到优化 LLM 应用效果的方向，获得有助于业务决策的信息。

快速开始

准备工作： 开始实验前，需要提前准备的有：可选用的业务 Prompt 、模型 API、数据集范例、评估器（可选）。

步骤 1️⃣ ： 进入「数据集列表」页，单击右上角「+ 新建数据集」，填写数据集名称即可完成创建。

步骤 2️⃣ ： 单击刚刚创建的数据集，默认进入该数据集的「范例列表」页。有三种方式可以添加范例，选择您合适的方式即可。

步骤 3️⃣ ： 进入该数据集的「范例列表」页，单击「+ 新建实验」后，按提示填写必要信息，即可完成创建。

成功创建后，实验即可执行。等待实验状态为“已完成”，则说明实验执行完毕。便可进入该实验详情页查看数据结果。

数据集列表

进入「数据集」模块，默认展示数据集的列表页。

⬆️ 上方搜索框，可以通过数据集名称快速筛选出目标数据。

⬇️ 下方数据列表，默认展示数据集的名称、描述、实验数、范例数、创建时间。拥有权限的成员，可以对其进行删除的操作。

↗️ 单击右上角「+ 新建数据集」，填写数据集名称即可完成创建。

提示

目前，数据集名称暂不可重复。

范例

范例列表

在「数据集列表页」单击某个数据集名称，即可进入对应详情页。默认展示该数据集的范例列表。

范例，主要包括 Input、Reference Output、Metadata 三项内容。

Input：输入内容，即模型需要处理的输入内容。
Reference Output：输出参考答案，评估模型实际输出内容是，可作为参考标准（可选填）。
Metadata：元数据（可选填）。

范例详情

行点击「范例列表」中的某条数据，即可查看对应详情页。

新建范例

目前，支持三种方式新建范例：

方式 1️⃣：手动添加

单击「+ 新增范例」按钮，填写必要信息即可完成创建。在当前数据集内新建范例时，会默认添加到当前数据集下，也可以同时添加到其他数据集。

方式 2️⃣：本地上传

当您需要批量上传范例时，单击「+ 批量导入范例」下载模板，按照模板格式填写范例内容后上传即可。

方式 3️⃣：从应用数据添加

在 LLM 应用的 Traces 或 Spans 详情页，单击右上角「作为范例添加到数据集」按钮，选择目标数据集并二次编辑内容，确定后即可从应用数据添加成功。

此方式适用于，当前数据的 Input 和 Output 内容达到了您的预期。 此时，Traces 或 Spans 的 Input 内容，会自动填充为范例的 Input 内容；Output 内容，会自动填充为范例的 Reference Output。

这种方式添加的范例，在范例列表的第一列会展示来源图标，点击即可查看来源 Traces 或 Spans 的详情页。

实验

当拥有一定数量的范例后，便可以创建实验。基于数据集，便可以进行实验。实验是指，通过组合数据集、Prompt、模型设置、评估器（可选），实现在给定的 Prompt 下，对模型输入范例的 Input 内容，得到模型返回的 Output 内容。若配置了评估器，还会对每条数据进行评估，并给出评分值。

通过分析实验结果，可以找到优化 LLM 应用效果的方向，获得有助于业务决策的信息。

实验列表

进入「数据集 - 实验」页面，默认展示当前数据集下的实验列表。

⬆️ 上方搜索框，可以通过实验名称快速筛选出目标数据。

⬇️ 下方数据列表，展示实验的状态、名称、描述、数据量、Prompt 、所选模型、评估结果、创建时间。拥有权限的成员，可以对其进行删除的操作。

鼠标悬浮在某行数据时。下方数据列会出现功能按钮：

Prompt列：可以查看 Prompt 详情。
评估结果列：针对每一个评估结果，可以查看评估器详情和评估维度详情。

新建实验

↗️ 单击「+ 新建实验」后，按提示填写必要信息，即可完成创建。涉及到的信息说明如下：

实验名称：不可重复。
业务 Prompt：选择一个当前「Prompt 管理」模块已有的 Prompt 及版本。
模型设置：可选用的模型，来源于「模型 API」模块。若没有合适的，连接器下拉框底部可以直接「+ 新建连接器」，创建成功后即可选用。
数据集：默认选择当前数据集，也可以选择其他数据集。
评估器（可选填）：选择已有的评估器及版本进行评估。若没有合适的，下拉框底部可以直接「+ 新建评估器」，创建成功后即可选用。
描述（可选填）：补充说明当前实验的信息。

注意

当 业务 Prompt 和数据集都不为空时，会验证所选数据集的范例的 Input 内容，是否符合所选业务 Prompt 引用的可用变量。

若没有一个范例符合要求，则该实验无法成功创建。
若有部分范例符合要求，则会提示符合的范例数量。实验可以成功创建，但不符合要求的范例，在实验过程中会报错。

实验详情

在「实验列表」页面，单击某个实验名称，即可进入对应详情页。

数据列表，展示当前实验数据的执行信息。包括每条数据的状态、 ID 、Input 、Output 、Reference Output 、Metadata 和评估维度的评分值。

这里的 ID 含义是：从生成这条数据到评估完成（若配置了评估器）这一整条实验数据的 ID。

行点击，可以查看该条实验数据的详情页。

实验对比

在「实验列表」页面，批量选择多个实验后，可以进行「实验对比」。

数据明细

实验对比的「数据明细」页面，展示当前所选实验的输出内容及评估结果对比。

数据列表中的范例 ID 、Input 、Reference Output内容，来源于所选择的基准实验。

点击行数据里面的“范例 ID”，即可弹出详情页，查看该范例 ID下所有实验的输出内容及评估结果。

评估分析

实验对比的「评估分析」页面，展示当前所选实验的评估结果对比。

快速开始​

数据集列表​

范例​

范例列表​

范例详情​

新建范例​

方式 1️⃣：手动添加​

方式 2️⃣：本地上传​

方式 3️⃣：从应用数据添加​

实验​

实验列表​

新建实验​

实验详情​

实验对比​

数据明细​

评估分析​