<rt id="eitdv"></rt>
      1. 0
        • 聊天消息
        • 系統消息
        • 評論與回復
        登錄后你可以
        • 下載海量資料
        • 學習在線課程
        • 觀看技術視頻
        • 寫文章/發帖/加入社區
        創作中心

        完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

        3天內不再提示

        阿里云大面積宕機,淘寶、餓了么等多產品“崩了”,機房運行面臨四大挑戰

        Felix分析 ? 來源:電子發燒友網 ? 作者:吳子鵬 ? 2023-11-14 09:05 ? 次閱讀

        電子發燒友網報道(文/吳子鵬)11月12日下午,就在雙十一大促的后一天,阿里云疑似發生大規模、大范圍故障,導致包括淘寶、閑魚、阿里云盤、釘釘在內的阿里系產品全線崩潰。一時間,“阿里云盤崩了”“淘寶又崩了”“釘釘崩了”和“閑魚崩了”等多條相關詞條進入微博熱搜榜。


        12日晚8點,阿里方面發布官方消息稱,19:20左右,經工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤等APP已全面恢復。

        根據群公告和官方信息,此次阿里云系統宕機的時間線為:
        ·17時44分起,阿里云產品控制臺訪問及API調用出現使用異常,阿里云工程師開始緊急介入排查;
        ·17時50分,阿里云已確認故障原因與某個底層服務組件有關,工程師緊急處理中;
        ·18時54分,經過阿里工程師處理,杭州、北京等地域控制臺已恢復,其他地域控制臺服務逐步恢復中;
        ·19時20分,阿里工程師通過分批重啟組件服務,絕大部分地域控制臺服務已恢復訪問;
        ·19時43分,異常管控服務組件均已完成重啟,除個別云產品(如消息隊列MQ、消息服務MNS)仍需處理,其余云產品控制臺及API服務已恢復;
        ·20時12分,北京、杭州等地域消息隊列MQ已完成重啟,其余地域逐步恢復中;
        ·21時11分,受影響云產品均已恢復,因故障影響部分云產品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。

        此次宕機波及甚廣

        上面的詞條可能有細心的網友已經發現,“淘寶又崩了”這個詞條多了一個又字。近兩年,幾乎每年都有“淘寶崩了”進入微博熱搜榜。

        2021年10月20日晚間,由于雙十一改成了“八點檔”而不再是零點開售,所以很多人開始在此時蹲守,準備“褥羊毛”,或者趁著便宜買自己需要的東西。然而,預售剛開始就有網友反饋給客服發消息發不出去。原因就是服務器系統受不了如此巨大的訪問量,崩潰了。隨后,淘寶官方賬號在當天20時43分的時候回復稱,原來不熬夜的你們這么猛嗎?

        2022年7月12日晚間,“淘寶崩了”再次上熱搜,據多名網友反映,他們在購買商品時突然遇到了卡頓的情況。針對這一次的情況,淘寶官方賬號表示:平臺正常。

        當然,阿里云也不是第一次發生規模性故障了。2022年12月,阿里云香港地域發生長時間持續性故障,服務中斷一度超過12小時,這是阿里云運營十多年來持續時間最長的一次大規模故障。2022年12月25日,阿里云在官方微信發布《關于阿里云香港Region可用區C服務中斷事件的說明 》。其中提到,12月18日,由于香港Region可用區C機房冷卻系統失效,包間溫度逐漸升高,導致一機房包間溫度達到臨界值觸發消防系統噴淋,電源柜和多列機柜進水,部分機器硬件損壞。整個處置過程超過10小時。

        雖然這一次阿里云的故障處置沒有香港那么久,不過從上面的時間線也能夠看出,基本上也是花費了一個半小時才做到絕大部分地域的正常訪問。并且,此次系統宕機的影響范圍遠超上一次阿里云香港地域故障。

        阿里云公告顯示,國內包括華北2 (北京)、華北6 (烏蘭察布)、華南1(深圳)、中國香港、華東1(杭州)等節點受到影響;國際市場包括英國(倫敦)、韓國(首爾)、日本(東京)、阿聯酋(迪拜)、美國 (弗吉尼亞)、菲律賓 (馬尼拉)、新加坡等節點受到影響。

        阿里云公告顯示,受影響的主要產品包括OSS、OTS、SLS、MNS等產品,大部分產品如ECS、RDS、網絡等運營正常。這些受影響的產品包括企業級分布式應用服務、云原生大數據計算服務MaxCompute、云存儲網關、塊存儲、混合云備份服務、云原生內存數據庫Tair、運維安全中心(堡壘機)、數據庫備份、物聯網平臺、超級計算集群、彈性裸金屬服務器、云服務器ECS、云呼叫中心、交通云控平臺、客服工作臺、視覺智能開放平臺、運維事件中心和新零售智能助理等。

        2022年12月,當阿里云香港地域節點發生故障時,有消息人士稱,阿里云將此次故障定義為“p0級事故”。隨后不久,時任阿里巴巴集團董事會主席兼CEO張勇發出全員郵件稱,自己將兼任阿里云智能總裁,取代原總裁張建鋒。

        如今,最新的故障雖然時間沒有那么長,但是波及面實在是太大了,不知道阿里云是否會繼續自己的鐵血管理風格。

        機房運轉的四大挑戰

        我們都知道,云計算是互聯網的核心支撐技術之一。根據Gartner相關統計數據,2022年以IaaS、PaaS、SaaS 為代表的全球云計算市場規模為 4910億美元,同比增長19%,雖然增速有所降低,不過市場需求依然強勁。這表明,雖然有經濟下行和通脹的壓力存在,云計算依然是未來的重要發展趨勢和實現新科技的重要手段,預計全球云計算市場規模會在2026年突破萬億美元級別。

        在市場份額方面,IDC的數據顯示,在公有云IaaS市場,2022年全球前四名云廠商依次為亞馬遜、微軟、谷歌和阿里云,其中阿里云的市場份額為5.2%。當然,如果僅統計中國企業或MNC使用國內公有云資源的業務,阿里云是當之無愧的市場第一,2022年上半年的占比高達37.2%。

        這些大的云計算企業基本每年都會規模性故障,比如2022年7月,因遭遇極端高溫天氣,甲骨文和谷歌在倫敦的數據中心也曾因冷卻系統出現問題而發生運行故障,導致部分網站癱瘓。

        綜合而言,作為云計算的硬件底層,機房主要會遇到四大方面的挑戰,分別來自環境、電力、硬件和軟件。

        機房會遇到的環境挑戰非常多,首當其沖就是高溫,上述甲骨文和谷歌的機房故障就是因為高溫,一旦溫度負荷超過降溫系統的極限,宕機是不可避免的。除了高溫之外,濕度過高、震動、灰塵和自然災害等,都會對機房的運行造成很大的干擾。

        機房的電力問題有時來自外部,有時則是內部。外部原因主要是供電系統突發故障,非預期性斷電是最常見的故障;內部原因則主要是初期規劃問題,有時候可能是對于服務器更新換代帶來的用電增長估計不足,有時候可能是成本壓力沒有備用設備。

        第三個挑戰是硬件本身的問題,機房的主要硬件設備包括服務器、交換機、路由器、硬件網關、硬件防火墻、交/直流電源、冷卻系統和監控系統。這是一套配合非常緊密的硬件系統,某一類設備故障和設備老化都有可能造成機架大面積癱瘓。

        最后一個挑戰則來自軟件。在服務領域,軟件負責整個系統的監管、調度,同時軟件還能夠提升服務器集群的性能、安全性和可擴展性,當然服務器上的軟件本身也是一種服務。軟件端造成沖擊最常見的兩種方式是數據訪問量短時間劇增,以及軟件升級和更新。

        此次阿里云的故障來自產品控制臺訪問及API調用,實際上就是軟件系統出了問題。對于這類問題,系統重啟是最直接有效的方式,不過過程中需要對數據進行留存和保護。

        小結

        大數據時代一個重要的特征是越來越多的數據及相關服務匯集在科技巨頭的設備上,一旦發生故障就會產生很大的波及范圍,也就會引起廣泛的關注。雖然大家都知道故障來自哪些方面,不過由于設備更新換代和系統升級的節奏太快,很多問題是很難具體化的,在爆發之前它們都是未知的。

        聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
        • 阿里云
          +關注

          關注

          3

          文章

          853

          瀏覽量

          42441
        收藏 人收藏

          評論

          相關推薦

          如何在AD18中大面積鋪銅?

          AD18中如何大面積鋪銅?
          發表于 09-26 01:06

          pcb板大面積覆銅的原因是什么

          `  誰來闡述一下pcb板大面積覆銅的原因是什么?`
          發表于 03-20 16:54

          PCB線路板大面積覆銅的作用是什么?

            PCB線路板在各類應用電器以及儀器儀表到處可見,電路板的可靠性是保證各項功能正常運行的重要保障,但是在很多線路板我們經??匆姾芏喽际?b class='flag-5'>大面積的覆銅,設計電路板用到大面積覆銅?! ∫话銇碚f大面
          發表于 06-28 14:25

          PCB線路板大面積覆銅的作用是什么

            PCB線路板在各類應用電器以及儀器儀表到處可見,電路板的可靠性是保證各項功能正常運行的重要保障,但是在很多線路板我們經??匆姾芏喽际?b class='flag-5'>大面積的覆銅,設計電路板用到大面積覆銅?! ∫话銇碚f大面
          發表于 09-03 18:03

          PCB設計為什么要大面積敷 t 銅

          高速信號在走線的時候出現直角有什么影響?A、B、AB、D類功放分別是什么意思?PCB設計為什么要大面積敷t銅?
          發表于 10-18 06:13

          大面積白光OLED器件

          大面積白光OLED器件本文介紹一種發出1200流明光的照明型大面積白光面板。該器件采用由藍色OLED發光向下轉換的技術方法獲得,器件為容錯型單片串連式結構。該器件的高發
          發表于 10-25 15:35 ?34次下載

          大面積均勻電子束產生實驗研究

          大面積均勻電子束產生實驗研究:在電子束泵浦氣體激光實驗中,大面積均勻電子束是獲得高效能激光輸出的必要條件。介紹利用SPG-200脈沖功率源產生大面積均勻電子
          發表于 10-26 21:53 ?16次下載

          阿里聯合研發ET人工智能

          1月11日下午消息,阿里在大數據平臺數加一周年分享會上透露,阿里已同
          發表于 01-11 17:04 ?708次閱讀

          新零售大新聞:阿里全資收購為新零售鋪路?

          最終還是被阿里一步步吸收了。 對于,
          的頭像 發表于 04-07 15:02 ?3481次閱讀

          阿里通信和共同宣布:阿里通信為提供號碼隱私保護服務

          近日,阿里通信和共同宣布,最快將在6月份
          發表于 05-25 14:23 ?4460次閱讀
          <b class='flag-5'>阿里</b>通信和<b class='flag-5'>餓</b><b class='flag-5'>了</b><b class='flag-5'>么</b>共同宣布:<b class='flag-5'>阿里</b>通信為<b class='flag-5'>餓</b><b class='flag-5'>了</b><b class='flag-5'>么</b>提供號碼隱私保護服務

          如何預防大面積停電

          除了對于居民直接居住體驗的影響之外,都市級的大面積斷電所帶來的傷害是長期并且多方面的。
          發表于 07-15 15:58 ?1897次閱讀

          借助阿里的AI算力和技術,解決眾包物流的服務難題

          是國內領先的本地生活平臺,從今年年初開始啟動全面“上”,僅耗時2個月就完相關遷移工程。上可一鍵擴容,無需置辦物理數據中心。通過數據
          的頭像 發表于 06-22 15:35 ?1886次閱讀

          什么是覆銅 電路板選擇大面積覆銅還是網格覆銅?

          為什么呢?大面積覆銅,具備加大電流和屏蔽雙重作用,但是大面積覆銅,如果過波峰焊時,板子就可能會翹起來,甚至會起泡。因此大面積覆銅,一般也會開幾個槽,緩解銅箔起泡。
          發表于 02-16 11:15 ?814次閱讀

          蘋果Apple ID出現大面積故障

          蘋果Apple ID出現大面積故障 蘋果Apple ID昨天出現大面積的故障,甚至包括支付都不行;而Apple ID/iCloud賬戶也無法登錄。 而且從網友的反饋來看,蘋果Apple ID出現
          的頭像 發表于 05-12 11:55 ?2345次閱讀

          突發!阿里崩了:全線產品受影響

          剛剛,看到微博熱搜榜,淘寶崩了、閑魚崩了、阿里崩了、釘釘
          的頭像 發表于 11-13 00:26 ?112次閱讀
          突發!<b class='flag-5'>阿里</b><b class='flag-5'>云</b><b class='flag-5'>崩了</b>:全線<b class='flag-5'>產品</b>受影響
          欧美日韩国产在线高清清视频免费观看丨久久香蕉国产线看观看怡红院妓院丨5D肉蒲团之性战奶水又爽又黄丨亚洲国产精品特色大片观看完整版