作者:来自 Elastic Muthukumar Paramasivam•Lalit Satapathy
我们为 Azure OpenAI GA 包添加了更多功能,现在提供提示和响应监控、PTU 部署性能跟踪和计费洞察!
我们最近宣布了 Azure OpenAI 集成的 GA。你可以在我们之前的博客 LLM 可观察性:Azure OpenAI(一) 中找到详细信息。
从那时起,我们为 Azure OpenAI 正式版包添加了更多功能,现在提供 prompt 和响应监控、PTU 部署性能跟踪和计费洞察。请继续阅读以了解更多信息!
高级日志记录和监控
集成的初始正式版本主要关注本机日志,通过使用认知服务日志记录来跟踪服务的遥测。此版本的 Azure OpenAI 集成允许你处理高级日志,从而更全面地了解 OpenAI 资源使用情况。
要实现这一点,你必须在 Azure 中设置 API 管理服务。API 管理服务是一个集中位置,你可以将所有 OpenAI 服务端点放在其中,以便端到端管理所有服务。启用 API 管理服务并配置 Azure 事件中心以流式传输日志。
要了解有关设置 API 管理服务以访问 Azure OpenAI 的更多信息,请参阅 Azure 文档。
通过使用高级日志记录,你可以收集以下日志数据:
- 请求输入文本
- 响应输出文本
- 内容过滤器结果
- 使用量信息
- 输入 prompt token
- 输出 completion token
- 总 token
Azure OpenAI 集成现在收集 API 管理网关日志。当用户的问题进入 API 管理时,它会记录问题和来自 GPT 模型的响应。
以下是示例日志的样子:
内容过滤结果
Azure OpenAI 的内容过滤系统可检测输入提示和输出 completion 中特定类别的潜在有害内容并采取措施。借助 Azure OpenAI 模型部署,你可以使用默认内容过滤器或创建自己的内容过滤器。
现在,集成会收集内容过滤结果日志。在此示例中,让我们在 Azure OpenAI Studio 中创建一个生成错误日志的自定义过滤器。
通过利用 Azure Content Filters,你可以创建自己的自定义术语或短语列表以进行阻止或标记。
Elastic 中采集的文档将如下所示:
此屏幕截图提供了对内容过滤请求的见解。
PTU 部署监控
预配置吞吐量单位 (Provisioned throughput units - PTU) 是模型处理容量的单位,你可以保留并部署这些单位来处理 prompt 和生成 completions。
PTU 部署的精选仪表板可全面查看请求延迟、活动 token 使用情况、PTU 利用率和微调活动等指标,快速了解部署的运行状况和性能。
以下是默认捕获的基本 PTU 指标:
- 响应时间:用户发送 prompt 后出现第一个响应所需的时间。
- 活动 token:使用此指标了解 PTU 的 TPS 或 TPM 利用率,并与目标 TPS 或 TPM 场景的基准进行比较。
- 预配置管理利用率(Provision-managed Utilization)V2:提供利用率百分比的见解,帮助防止过度使用并确保高效的资源分配。
- Prompt token 缓存匹配率:以百分比表示的提示 token 缓存命中率。
使用计费
使用精选的概览仪表板,你现在可以监控 AI 应用程序的实际使用成本。你距离处理计费信息仅一步之遥。
你需要配置和安装 Azure 计费指标集成。安装完成后,Azure OpenAI 概览仪表板中会直观显示认知服务的使用成本。
立即试用
在我们的 Elasticsearch 服务上部署集群或下载堆栈,启动新的 Azure OpenAI 集成,在 Kibana 中打开精选仪表板并开始监控你的 Azure OpenAI 服务!
原文:LLM Observability with Elastic: Azure OpenAI Part 2 — Elastic Observability Labs