跳到主要内容

9 篇博文 含有标签「LLM」

LLM tag description

查看所有标签

v1.22.0 版本发布

· 阅读需 3 分钟

本次版本更新聚焦于「LLM 可观测」模块,以下若无特殊说明,均为「LLM 可观测」相关功能。

新增特性(Feature)

  1. 调整「自动评估」功能相关逻辑。

    1. 新增「评估 Prompt」,并支持版本管理。现「Prompt 管理」模块,有「业务 Prompt」和「评估 Prompt」两部分。
    2. 新增「评估任务」,通过配置目标数据、评估器、任务规则来实现自动评估功能。现有持续性任务、一次性任务两种任务类型。
    注意

    自动评估逻辑调整后,若您当前正在使用 1.20.0 1.20.1 1.21.0 1.21.1 版本的「自动评估 - 评估器」功能,升级到 1.22.0 版本后,原有评估器相关数据将不会保存。

    升级前,请先联系我方技术人员。

  2. 「仪表板」图表增加链接跳转功能。

    1. 可以自定义将图表数据与其他模块数据相互关联,并一键跳转。目前支持「LLM 可观测」模块
    2. 「LLM 可观测 - 应用分析 - 概览」页面,概览图、折线图、排行榜图表,增加默认提跳转。

v1.21.0 版本发布

· 阅读需 4 分钟

本次版本更新聚焦于「LLM 可观测」模块,以下若无特殊说明,均为「LLM 可观测」相关功能。

新增特性(Feature)

  1. 「数据集 - 实验」模块,新增多个实验对比功能:
    1. 对比多个实验,同一个评估维度的平均分,进行整体评估。
    2. 对比同一范例不同实验的 Output 内容、自动评估结果对比。
  2. 「Prompt 管理」:同一个 Prompt 的不同版本,可以一键对比 Prompt 内容的差异。
  3. 「应用分析」模块:新增「关联功能」页面,快速展示当前应用的数据都被哪些功能所使用。
  4. 「人工评估」、「自动评估」、和「Prompt 管理」模块的列表,新增与之相关的“关联应用”或“关联数据集”。使得不同模块之间的数据关联更加清晰。

v1.21.0 版本发布

· 阅读需 5 分钟

重大更新(Breaking Changes)

重大更新

Lighthouse 的「LLM 可观测」模块,正式推出「自动评估」、「数据集与实验」、「Prompt 调试」三大功能。

  • 自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。

目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。

  • 数据集与实验

「数据集」指的是一组用于评估大模型在特定任务上的输出表现,这些数据集通常包含一系列的输入内容(Input)和输出参考答案(Reference Output)。其作用是帮助开发者评估 LLM 应用,是否达到预期效果。

基于数据集,便可以进行「实验」。实验是指,通过组合数据集、Prompt、模型设置、评估器(可选),实现在给定的 Prompt 下,对模型输入范例的 Input 内容,得到模型返回的 Output 内容。若配置了评估器,还会对每条数据进行评估,并给出评分值。通过分析实验结果,可以找到优化 LLM 应用效果的方向,获得有助于业务决策的信息。

  • Prompt 调试

在开发 LLM 应用的过程中,高质量的提示词(Prompt)是至关重要的一环。Prompt 内容和模型的合理搭配,可以最大限度地激发模型的潜能,满足多样化、个性化的应用场景。

Lighthouse 的「Prompt 调试」功能,可以让您无需切换工具或编写代码,便可轻松调试和优化您的 Prompt。通过调整 Prompt 内容和模型设置,可以实时查看不同模型对不同 Prompt 变更的响应,从而快速找到优化方向,极大提高工作效率。

v1.19.0 版本发布

· 阅读需 3 分钟

重大更新(Breaking Changes)

重大更新

Lighthouse 的「LLM 应用」模块,正式推出「人工评估」、「Prompt 管理」两大功能。

  • 人工评估

不同的 LLM 应用 ,有不同的业务目标,企业通常根据 LLM 应用的 input 和 output 内容来判断模型输出效果是否符合预期。Lighthouse 的人工评估功能,可以自定义评估维度(如准确性、简洁性、安全性等),并对每条 Trace、Span 数据进行多维度评分。帮助开发团队深入了解模型表现、识别问题、并持续优化模型质量,确保企业推出真正符合业务目标的优质 LLM 应用。

  • Prompt 管理

在开发 LLM 应用时,提示词版本混乱、缺乏效果追踪、缺少数据回溯、团队协作困难等问题,会拉低调试 Prompt 的工作效率。Lighthouse 的 Prompt 管理功能,提供 Prompt 的集中式存储库,可以对 Prompt 进行版本控制、数据对比、高效维护,显著提升 LLM 应用的质量及开发效率。

v1.18.0 版本发布

· 阅读需 4 分钟

新增特性(Feature)

  1. 管理:
    1. 新增「License 管理」模块:对不同模块核心资源量的使用进行管控和统计。

      注意:从1.17.0及之前的版本,直接升级到 1.18.0及以上版本,需要提前手动清空所有数据才可正常使用。如遇此情况,请联系技术支持。

    2. 新增「数据上报地址」模块:可以统一修改平台多个模块的数据配置信息,用于解决自动识别的数据上报地址与实际不符的情况。
  2. 仪表板:
    1. 数字概览图表,可以配置映射规则,对查询值赋值、并配色。
    2. 折线图、柱形图图表,可以配置阈值标记、并配色。
    3. 仪表板列表支持批量导出 JSON。
  3. LLM:
    1. 「会话分析」新增「Spans 列表」页面:展示每条 Span 的基本信息与性能数据,单击即可查看详情信息。
    2. 「会话分析」的 Traces 和 Spans 列表页,增加快捷筛选,可以根据类型、名称、使用模型、状态快速筛选出目标数据。

v1.17.0 版本发布

· 阅读需 4 分钟

新增特性(Feature)

  1. APM:
    1. 新增「自定义业务接口聚合规则」:可以将多个接口调用识别为同一个接口,有效地帮助客户从技术视角切换到业务功能视角,去观测接口的性能问题。
  2. LLM:
    1. 新增「拓扑」模块: 为 LLM 应用提供了一个全面且直观的调用关系、性能状况全景图。通过展示所有 Span 节点之间的调用关系及聚合后的性能指标,能够快速洞察 LLM 应用的整体运行状况、聚焦问题节点,精准定位问题,从而实现高效优化与管理。

v1.16.0 版本发布

· 阅读需 3 分钟

新增特性(Feature)

  • 仪表板:
    • 支持查询 LLM 数据,制作多种自定义图表。
    • 新增视图变量,实现在仪表板中切换视图变量的值,可以实时应用到当前仪表板的多个图表中。帮助用户自定义快速筛选和分析数据。
    • 支持 PromQL 查询语句。
    • 新增图表类型:排行榜。

v1.13.0 版本发布

· 阅读需 2 分钟

新增特性(Feature)

  • APM:
  1. 「资源分析」模块,拓扑图新增错误信息展示。
  2. 新增多个用户体验相关小功能。 img

缺陷修复(Bugfix)

  1. 修复「智能告警」log 告警记录详情点击报错的问题。
  2. 修复「LLM 应用」的应用列表数据单位展示错误的问题。
  3. 修复「LLM 应用」应用列表没有按自定义时间过滤的问题。
  4. 修复「LLM 应用」Top10 列表没有按自定义时间过滤的问题。
  5. 修复「LLM 应用」概率页,Tace 数量显示错误的问题。
  6. 修复「服务详情」,调整到调用链筛选异常问题。
  7. 修复部分「APM」火焰图顶层 Span 现实长度有误的问题。
  8. 修复「基础设施监控」,点击蜂窝图,左侧的筛选被清空的问题。

v1.12.0 版本发布

· 阅读需 3 分钟

重大更新(Breaking Changes)

重大更新

Lighthouse 探索 LLM 应用的可观测性,正式推出「LLM 应用」模块,旨在帮助企业监控 LLM 应用的性能,及时发现 LLM 应用的性能瓶颈、优化资源利用等。

目前,Lighthouse 可以观测应用系统中调用的 LLM 应用的 Session、Trace 维度的性能数据及使用情况,例如 Input、Output、响应时间、Token 消耗等等

imgimg

新增特性(Feature)

  • APM: 「资源分析」模块的资源调用拓扑,新增折叠资源功能。默认折叠调用百分比小于 1% 的资源,用户也可自定义修改折叠阈值。
  • LOG: 单条日志详情,可以一键跳转到关联的调用链详情页。