v1.21.0 版本发布
重大更新(Breaking Changes)
Lighthouse 的「LLM 可观测」模块,正式推出「自动评估」、「数据集与实验」、「Prompt 调试」三大功能。
- 自动评估:
Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。
目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。
- 数据集与实验:
「数据集」指的是一组用于评估大模型在特定任务上的输出表现,这些数据集通常包含一系列的输入内容(Input)和输出参考答案(Reference Output)。其作用是帮助开发者评估 LLM 应用,是否达到预期效果。
基于数据集,便可以进行「实验」。实验是指,通过组合数据集、Prompt、模型设置、评估器(可选),实现在给定的 Prompt 下,对模型输入范例的 Input 内容,得到模型返回的 Output 内容。若配置了评估器,还会对每条数据进行评估,并给出评分值。通过分析实验结果,可以找到优化 LLM 应用效果的方向,获得有助于业务决策的信息。
- Prompt 调试:
在开发 LLM 应用的过程中,高质量的提示词(Prompt)是至关重要的一环。Prompt 内容和模型的合理搭配,可以最大限度地激发模型的潜能,满足多样化、个性化的应用场景。
Lighthouse 的「Prompt 调试」功能,可以让您无需切换工具或编写代码,便可轻松调试和优化您的 Prompt。通过调整 Prompt 内容和模型设置,可以实时查看不同模型对不同 Prompt 变更的响应,从而快速找到优化方向,极大提高工作效率。
新增特性(Feature)
- 新建用户的用户名,支持下划线、连字符等特殊格式。
- Trace 详情页可以一键跳转关联的 Prompt 信息。
- 仪表板增加分享功能。
优化(Improvement)
- UI 与用户体验:
- 规范平台公共部分的样式,提升整体美观度。
- 修改导航栏布局,区分系统可观测与 LLM 可观测两大模块。
- 调整 LLM 可观测模块部分功能布局,提升易用性。
- 基础设施模块:主机、容器、进程使用率用进度条表示,更加直观。
缺陷修复(Bugfix)
- 修复 LLM 拓扑图,偶发切换填充指标失败的问题。
- 修复 LLM 评估详情里类型展示样异常的问题。
- 修复 LLM Trace 详情的空白区域布局下面空白的问题。
- 修复 LLM Trace 列表偶发勾选异常的问题。
- 修复 LLM 会话分析,Session ID 搜索失败的问题。
- 修复 LLM Prompt 管理,输入错误字符变量不提示的问题。
- 修复前端浏览器兼容导致日志详情的 body 一直显示 loading 的问题。
- 修复 Profiling 详情空白的问题。
- 修复 Profiling 日志文件无限增大导致数据堆积的问题。