阿里云OpenSearch-LLM智能问答故障的一天

上周五使用阿里云开放搜索问答版时,故障了一整天,可能这个服务使用的人比较少,没有什么消息爆出来,特此记录下这几天的阿里云处理过程,不免让人怀疑阿里云整体都外包出去了,反应迟钝,水平业余,却又很在意KPI。

1. 什么是智能开放搜索OpenSearch

在抨击阿里云服务之前,还是要肯定open search问答版挺好用的,解决了公司想要根据内部知识内容搭建大模型,进行内部AI的数据问答,在这之前我也试用过模型服务灵积的定制模型,但作为传统型公司,训练模型所需要的语料库根本没有,公司的诉求更多是给一堆内部文档,然后对此进行提问回答,省去过往人工查找,还能将内部知识进行概括总结,给出所属的知识来源文档,所以要想生成基于问答形式的语料库不太现实。或者还有更好的方法我还没探索出来吧。

基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,以及充分开放的文本向量检索引擎能力,助力开发者快速搭建智能搜索服务。

OpenSearch LLM智能问答版

2. 故障过程

因为还属于开发阶段,出于成本考虑,我们的实例并不是一直运行的,LLM模型的费用分为实例资源运行费+调用处理费,实例资源运行时按小时0.2元/小时,每次问答调用差不多0.13元/次。

早上新建了实例后,通过Python将结构化后的文档数据通过API传到实例中,发现怎么都传不上去,返回参数正常,通过控制台也不行,显示上传成功,但不展示数据内容,只有空Id列表,以为是实例创建错误,先自己进行尝试。

  1. 先销毁了几次实例,创建了好几个不同App名称的实例进行试验,都不行
  2. 怀疑自己运行了十多次的Python代码有问题,可能是官方sdk库更新,重新下载了官方文档代码,发现还不行
  3. 切换了网络,切换了数据集,切换了控制台,都不行

3. 提报工单

总结了下我这里应该是没问题,有点怀疑是阿里云的问题,索性提个工单吧,看看工程师怎么说。

一直到下午五点多,阿里云才开始正式处理,不知道中间这两个小时在干什么,可能他们觉得是用户的问题,什么参数没有配置对,等五点半开始看的时候发现真的崩了,五点半开始给我打了四五个电话,都是阿里云的工程师直接联系我,让提供上传的文档,截图,代码,API开发过程,想要复现问题,但我不理解直接工程师本地复现不就行吗。

经过一个多小时,我都下班回家了,工程师又打来电话让试下有没有恢复,确实是好了,从早上崩溃到工单提报处理也有五六个小时的时间,真正问题定位处理用了一个多小时,在我们过往线上问题处理中,一个小时才能定位处理的事故,已经很严重了。

4. 退钱退钱

在周五提报工单时一直没有销毁实例,阿里云工程师打电话时也说先别销毁,想通过这个实例来复现问题,等晚上处理结束打电话通知我好了以后,我问了下今天宕机一天的费用怎么办,服务虽然不能用,但费用一点也没少扣,工程师说后续可以补偿,但也就没了后续。。。

周一想起来这事发现还没人联系我,就在之前的工单里继续询问,虽然没有多少钱,不过就这么点钱你们也不想处理,我只能自己催了。

中途又让我自己导出账单,自己进行核算,就暴脾气突然上来了,好好说就拖着不给好好解决,6块钱的代金券也是要了一整天,下午六点才确认回复,六点多连着打了两个电话让我关闭工单,可能是从周五一直拖到现在,影响到平均处理时长的考核KPI吧。

5. 说实话

上个月阿里云的大故障也不知道后续怎么处理的,反正没有我公司什么事,公司在阿里云上有三万多的资源,但用户量不大所以没有核算什么损失,阿里云也没有一点点动静,也是因为这些资源,使得很多云服务都得继续用阿里云的,可以说是深度绑定。这次故障之前也有很多小问题,提个工单也不怎么处理,后来索性点投诉才能继续推进。

这次问题让我感觉到阿里云处理能力挺差的

  1. 像AI这类新业务没有主动检测预警:正常这些大的业务板块都会有服务检测,监控接口或者日志等数据,在用户感知之前就能同步响应到阿里云后台,这次崩了这么久也没当回事,应该就是没什么人用,提了工单也没当回事,第一反应是用户的使用问题,后来发现真的报错了才慌了(后来多次打电话时语气有点焦急)
  2. 线上事故处理能力差:在工单里我已经很详细的描述了问题,但他们还是啰嗦的要了各种截图,文件,代码来复现,其实自己连上去就可以操作,反复咨询用户只会让人觉得很不专业。
  3. 用户补偿机制不完善:或者说国内这些厂商也没想着补偿用户,发现问题第一反应是:就你事多,我们已经给你处理了,你还想怎么样呢,如果我不去要补偿,可能也不会再去联系我,毕竟多一事不如少一事。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/579730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JavaWeb学习笔记】16 - JSon和Ajax

项目代码 https://github.com/yinhai1114/JavaWeb_LearningCode/tree/main/json https://github.com/yinhai1114/JavaWeb_LearningCode/tree/main/ajax 目录 〇、官方文档 一、JSon 1.JSon介绍 2.JSon快速入门 3.JSON对象和字符串对象转换 1.应用案例 2.注意事项和细节 …

html table可编辑表格数据实现删除

这里教大家使用纯html和js脚本结合实现删除表格数据 <!DOCTYPE html> <html> <head><style>table {border-collapse: collapse;width: 100%;}th, td {border: 1px solid black;padding: 8px;text-align: left;}</style> </head> <body…

人工智能_机器学习077_Kmeans聚类算法_亚洲国家队自动划分类别_3维可视化实现---人工智能工作笔记0117

然后我们上一节使用聚类算法对,2006年世界杯,2010年世界杯,2007年亚洲杯,足球队进行了自动类别划分,然后 这一节,我们使用代码对,聚类算法的划分结果,进行一下可视化 plt.figure(figsize=(12,9)) 首先指定画布大小 ax=plt.subplot(111,projection=3d) 然后指定111,表示画布的,…

Java之遍历树状菜单

&#x1f607;作者介绍&#xff1a;一个有梦想、有理想、有目标的&#xff0c;且渴望能够学有所成的追梦人。 &#x1f386;学习格言&#xff1a;不读书的人,思想就会停止。——狄德罗 ⛪️个人主页&#xff1a;进入博主主页 &#x1f5fc;专栏系列&#xff1a;无 &#x1f33c…

loTDB数据库学习笔记之初识 —— 筑梦之路

loTDB简介 IoTDB 是针对时间序列数据收集、存储与分析一体化的数据管理引擎。具有体量轻、性能高、易使用的特点&#xff0c;适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求&#xff0c;同时包含数据订阅、数据同步、负载均衡和运维监控功能。 由清华大学…

pytorch中池化函数详解

1 池化概述 1.1 什么是池化 池化层是卷积神经网络中常用的一个组件&#xff0c;池化层经常用在卷积层后边&#xff0c;通过池化来降低卷积层输出的特征向量&#xff0c;避免出现过拟合的情况。池化的基本思想就是对不同位置的特征进行聚合统计。池化层主要是模仿人的视觉系统…

文件夹共享(普通共享和高级共享的区别)防火墙设置(包括了jdk安装和Tomcat)

文章目录 一、共享文件1.1为什么需要配置文件夹共享功能&#xff1f;1.2配置文件共享功能1.3高级共享和普通共享的区别&#xff1a; 二、防火墙设置2.1先要在虚拟机上安装JDK和Tomcat供外部访问。2.2设置防火墙&#xff1a; 一、共享文件 1.1为什么需要配置文件夹共享功能&…

华为---USG6000V防火墙web基本配置示例

目录 1. 实验要求 2. 配置思路 3. 网络拓扑图 4. USG6000V防火墙端口和各终端相关配置 5. 在USG6000V防火墙web管理界面创建区域和添加相应端口 6. 给USG6000V防火墙端口配置IP地址 7. 配置通行策略 8. 测试验证 8.1 逐个删除策略&#xff0c;再看各区域终端通信情况 …

2024年深度学习、计算机视觉与大模型面试题综述,六大专题数百道题目

DeepLearning-Interview-Awesome-2024 本项目涵盖了大模型(LLMs)专题、计算机视觉与感知算法专题、深度学习基础与框架专题、自动驾驶、智慧医疗等行业垂域专题、手撕项目代码专题、优异开源资源推荐专题共计6大专题模块。我们将持续整理汇总最新的面试题并详细解析这些题目&a…

解决 MacOS JD-GUI 打开失败的问题

JD-GUI下载地址&#xff1a;http://java-decompiler.github.io JD-GUI 是一款轻量级的 Java 反编译工具&#xff0c;对于一些没有源码的 Jar 包&#xff0c;直接拖进去就可以反编译源码&#xff0c;十分的方便。 在 MacOS 还是 Mojave 的时候&#xff0c;JD-GUI 使用一切正常…

负载均衡——Ribbon

文章目录 Ribbon和Eureka配合使用项目引入RibbonRestTemplate添加LoadBalanced注解注意自定义均衡方式代码注册方式配置方式 Ribbon脱离Eureka使用 Ribbon&#xff0c;Nexflix发布的负载均衡器&#xff0c;有助于控制HTTP和TCP客户端的行为。基于某种负载均衡算法&#xff08;轮…

线性代数基础【3】向量

第一节 向量的概念与运算 一、基本概念 ①向量 ②向量的模(长度) ③向量的单位化 ④向量的三则运算 ⑤向量的内积 二、向量运算的性质 (一)向量三则运算的性质 α β β αα (β γ) (α β) γk (α β) kα kβ(k l) α kα lα (二)向量内积运…

TypeScript前端学习(四)

前言 还是分享的笔记&#xff0c;大佬请绕行&#xff01; 一、类的定义和继承 console.log("----对象---"); var people {"name": "张三",syaHi() {console.log("HI,my name is " this.name);} } people.syaHi();console.log("…

使用poi将pptx文件转为图片详解

目录 项目需求 后端接口实现 1、引入poi依赖 2、代码编写 1、controller 2、service层 测试出现的bug 小结 项目需求 前端需要上传pptx文件&#xff0c;后端保存为图片&#xff0c;并将图片地址保存数据库&#xff0c;最后大屏展示时显示之前上传的pptx的图片。需求看上…

sheng的学习笔记-【中】【吴恩达课后测验】Course 4 -卷积神经网络 - 第四周测验

课程4_第4周_测验题 目录 第一题 1.面部验证只需要将新图片与1个人的面部进行比较&#xff0c;而面部识别则需要将新图片与K个人的面部进行比较。 A. 【  】正确 B. 【  】错误 答案&#xff1a; A.【 √ 】正确 第二题 2.在人脸验证中函数d(img1,img2)起什么作用&a…

如何使用宝塔面板+Discuz+cpolar内网穿透工具搭建可远程访问论坛服务

文章目录 前言1.安装基础环境2.一键部署Discuz3.安装cpolar工具4.配置域名访问Discuz5.固定域名公网地址6.配置Discuz论坛 前言 Crossday Discuz! Board&#xff08;以下简称 Discuz!&#xff09;是一套通用的社区论坛软件系统&#xff0c;用户可以在不需要任何编程的基础上&a…

少走十年弯路!!!webpack详解

webpack是什么&#xff1f;&#xff1f; 本质上&#xff0c;webpack 是一个用于现代 JavaScript 应用程序的 静态模块打包工具。当 webpack 处理应用程序时&#xff0c;它会在内部从一个或多个入口点构建一个 依赖图(dependency graph)&#xff0c;然后将你项目中所需的每一个模…

LSTM的记忆能力实验

长短期记忆网络&#xff08;Long Short-Term Memory Network&#xff0c;LSTM&#xff09;是一种可以有效缓解长程依赖问题的循环神经网络&#xff0e;LSTM 的特点是引入了一个新的内部状态&#xff08;Internal State) 和门控机制&#xff08;Gating Mechanism&#xff09;&am…

禁止选择当天及以后的时间

这篇文章编辑与2023.12.26&#xff0c;所以可以选择的时间为包含2023.12.25以及之前的时间 实现思路&#xff1a;1、获取当天时间的年月日&#xff0c;然后默认时分秒为23&#xff1a;59&#xff1a;59&#xff1b; 2、获取到时间转为时间戳减去 一天&#xff08;1*24*3600*10…

MySQL部署之yum安装

目录 MySQL 清理环境 下载yum源的rpm包 关闭防火墙 关闭selinux 安装必要的软件包 初始化 获取临时密码并修改密码 MySQL https://www.mysql.com //mysql官网 yum安装步骤 yum安装 清理环境 [rootmysql ~]# yum erase mariadb mariadb-server mariadb-libs mariadb-de…