持續(xù)近87分鐘1957個客戶報障 騰訊云回應(yīng)事故原因
2024年4月8日下午,騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報錯、內(nèi)部服務(wù)錯誤,網(wǎng)頁顯示504錯誤。504錯誤代表網(wǎng)關(guān)超時(Gateway timeout),是指服務(wù)器作為網(wǎng)關(guān)或代理,但沒有及時從上游服務(wù)器收到請求。
本文引用地址:http://m.butianyuan.cn/article/202404/457590.htm4月8日傍晚,騰訊云公告,騰訊云官網(wǎng)控制臺相關(guān)服務(wù)出現(xiàn)異常,工程師正在緊急修復(fù)中。部分地區(qū)已恢復(fù),其他地區(qū)也正在繼續(xù)搶修當(dāng)中。
4月14日,騰訊云官方對4月8日故障情況進行說明:4月8日15點23分,騰訊云團隊收到告警信息,云API服務(wù)處于異常狀態(tài);隨即在騰訊云工單、售后服務(wù)群以及微博等渠道開始大量出現(xiàn)騰訊云控制臺登錄不上的客戶反饋。
經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云API異常所導(dǎo)致。云API是云上統(tǒng)一的開放接口集合,客戶可以通過API以編程方式管理和操控云端資源,云控制臺通過組合云API提供交互式的網(wǎng)頁功能。而事故根本原因在于騰訊云版本變更過程中,沒有有效執(zhí)行沙箱驗證和預(yù)案演練,暴露了在變更管理上的不足,最終導(dǎo)致云API服務(wù)新版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機制不足的問題。
故障發(fā)生后,騰訊云方面表示,依賴云API提供產(chǎn)品能力的部分公有云服務(wù),也因為云API的異常出現(xiàn)了無法使用的情況,比如云函數(shù)、文字識別、微服務(wù)平臺、音頻內(nèi)容安全、驗證碼等。此次故障一共持續(xù)了近87分鐘,期間共有1957個客戶報障。
從客戶的視角來看,云服務(wù)可以分為數(shù)據(jù)面和控制面,數(shù)據(jù)面承載客戶自身的業(yè)務(wù),控制面負(fù)責(zé)操作云上不同產(chǎn)品。比如目前使用最廣泛的IaaS服務(wù)基本上都是以直接面向數(shù)據(jù)面為主,控制面僅在客戶購買或需要對資源層面進行調(diào)整操作時會涉及。此次發(fā)生故障的控制臺和云API是對控制面的影響。通俗來講,如果把云服務(wù)類比為酒店,控制臺相當(dāng)于酒店的前臺,是一個統(tǒng)一的服務(wù)入口。一旦酒店前臺發(fā)生故障,會導(dǎo)致入住、續(xù)住等管理能力不可用,但已入住的客房不受影響。
騰訊云方面稱,這次故障中客戶已經(jīng)配置好的服務(wù)器等IaaS資源,包括已經(jīng)部署運行的業(yè)務(wù),沒有受到云API異常的影響。其他以非云API方式提供服務(wù)的PaaS和SaaS服務(wù),處于正常服務(wù)的狀態(tài)。但用API提供的服務(wù)類產(chǎn)品(需要“酒店前臺服務(wù)“)有不同程度的影響,比如騰訊云存儲服務(wù)調(diào)用當(dāng)天有明顯下滑。期間售后團隊協(xié)助部分客戶做了業(yè)務(wù)容災(zāi)預(yù)案的實施,將受影響服務(wù)做調(diào)度以快速恢復(fù)客戶的業(yè)務(wù)服務(wù)。
騰訊云方面表示將從提升系統(tǒng)韌性、強化變更管理與保護措施、增強故障響應(yīng)與溝通能力三方面進行改進。
近年來,因云服務(wù)問題導(dǎo)致應(yīng)用程序“崩了”的現(xiàn)象頻繁發(fā)生。今年4月9日,支付寶崩了登上熱搜,用戶反映在使用支付寶APP時出現(xiàn)“已經(jīng)停止訪問”的頁面。隨后支付寶方面回應(yīng)稱:少量用戶訪問部分頁面時出現(xiàn)了短暫性的訪問不暢。這一情況已經(jīng)快速恢復(fù),用戶的資金和信息安全都不受影響,各項功能也都可以正常使用。但具體事故原因并未進一步說明。
2023年12月3日晚,騰訊視頻“崩了”登上微博熱搜。騰訊視頻方面回應(yīng)稱,出現(xiàn)了短暫技術(shù)問題,正在加緊修復(fù),各項功能在逐步恢復(fù)中。
2023年11月27日晚間,滴滴App系統(tǒng)發(fā)生故障,全國大面積崩潰,服務(wù)無法正常使用。11月29日,滴滴方面發(fā)表聲明稱,各項服務(wù)已經(jīng)恢復(fù),初步確定,這起事故的起因是底層系統(tǒng)軟件發(fā)生故障。
2023年3月5日20:20左右,在B站用戶活躍的高峰期,許多網(wǎng)友發(fā)現(xiàn)B站手機和電腦端均無法訪問視頻詳情頁,當(dāng)晚B站團隊在出現(xiàn)故障20分鐘后解決了問題。多位行業(yè)人士傾向于原因是“迭代更新出現(xiàn)代碼故障”,這是2021年7月B站大規(guī)模服務(wù)器崩潰后的官方解釋。
如果不是滴滴全國范圍的長時間崩潰造成大規(guī)模的負(fù)面影響與討論度,非行業(yè)人士不會將某款軟件的暫時“崩了”作為熱點討論。萬博智云CTO孫琦對第一財經(jīng)表示,滴滴事件僅是一個個案,但該事件故障級別較大,確實影響到了一定規(guī)模普通群眾的生活。實際上,很多用戶看不到的軟件故障正在每天發(fā)生,這在行業(yè)內(nèi)是一個較為常見的問題。
此次騰訊云發(fā)生大范圍故障,有行業(yè)人士將其與2023年11月阿里云史詩級故障并稱。2023年11月12日晚間,阿里云發(fā)生故障,“阿里云盤崩了” “淘寶又崩了” “閑魚崩了” “釘釘崩了” 等話題相繼登上熱搜,阿里系諸多產(chǎn)品受到影響。阿里云對此公告稱,2023年11月12日17:44起,阿里云監(jiān)控發(fā)現(xiàn)云產(chǎn)品控制臺訪問及API調(diào)用出現(xiàn)異常,阿里云工程師正在緊急介入排查。18:54阿里云再度公告稱,經(jīng)過工程師處理,杭州、北京等地域控制臺已恢復(fù),其他地域控制臺服務(wù)逐步恢復(fù)中。
近期國內(nèi)云平臺密集降價,阿里云甚至直接將云產(chǎn)品以折扣形式搬進羅永浩淘寶直播間,傳統(tǒng)IaaS產(chǎn)品逐漸同質(zhì)化,云廠商競爭逐漸轉(zhuǎn)為價格競爭。但在追求銷量與市場規(guī)模的同時,客戶的基礎(chǔ)運維與數(shù)據(jù)安全工作,不應(yīng)因“降本增效”而被忽視。
評論