跳到主要内容

v1.21.0 版本发布

· 阅读需 5 分钟

重大更新(Breaking Changes)

重大更新

Lighthouse 的「LLM 可观测」模块,正式推出「自动评估」、「数据集与实验」、「Prompt 调试」三大功能。

  • 自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。

目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。

  • 数据集与实验

「数据集」指的是一组用于评估大模型在特定任务上的输出表现,这些数据集通常包含一系列的输入内容(Input)和输出参考答案(Reference Output)。其作用是帮助开发者评估 LLM 应用,是否达到预期效果。

基于数据集,便可以进行「实验」。实验是指,通过组合数据集、Prompt、模型设置、评估器(可选),实现在给定的 Prompt 下,对模型输入范例的 Input 内容,得到模型返回的 Output 内容。若配置了评估器,还会对每条数据进行评估,并给出评分值。通过分析实验结果,可以找到优化 LLM 应用效果的方向,获得有助于业务决策的信息。

  • Prompt 调试

在开发 LLM 应用的过程中,高质量的提示词(Prompt)是至关重要的一环。Prompt 内容和模型的合理搭配,可以最大限度地激发模型的潜能,满足多样化、个性化的应用场景。

Lighthouse 的「Prompt 调试」功能,可以让您无需切换工具或编写代码,便可轻松调试和优化您的 Prompt。通过调整 Prompt 内容和模型设置,可以实时查看不同模型对不同 Prompt 变更的响应,从而快速找到优化方向,极大提高工作效率。

新增特性(Feature)

  1. 新建用户的用户名,支持下划线、连字符等特殊格式。
  2. Trace 详情页可以一键跳转关联的 Prompt 信息。
  3. 仪表板增加分享功能。

优化(Improvement)

  1. UI 与用户体验:
    1. 规范平台公共部分的样式,提升整体美观度。
    2. 修改导航栏布局,区分系统可观测与 LLM 可观测两大模块。
    3. 调整 LLM 可观测模块部分功能布局,提升易用性。
    4. 基础设施模块:主机、容器、进程使用率用进度条表示,更加直观。

缺陷修复(Bugfix)

  1. 修复 LLM 拓扑图,偶发切换填充指标失败的问题。
  2. 修复 LLM 评估详情里类型展示样异常的问题。
  3. 修复 LLM Trace 详情的空白区域布局下面空白的问题。
  4. 修复 LLM Trace 列表偶发勾选异常的问题。
  5. 修复 LLM 会话分析,Session ID 搜索失败的问题。
  6. 修复 LLM Prompt 管理,输入错误字符变量不提示的问题。
  7. 修复前端浏览器兼容导致日志详情的 body 一直显示 loading 的问题。
  8. 修复 Profiling 详情空白的问题。
  9. 修复 Profiling 日志文件无限增大导致数据堆积的问题。