OceanBase十四年:艱難起步、根自研和一體化思路
2024年對於OceanBase來說是尤爲關鍵的一年。
一方面,這一年,螞蟻集團官宣OceanBase正式獨立運營;
更重要的是,不少頭部企業核心業務開始正式轉向OceanBase分佈式數據庫,一些企業甚至明確提出了要“All in OceanBase”。
OceanBase CEO楊冰稱,“分佈式數據庫如今已經開始成爲現代數據庫的標準架構,與此同時,一體化數據庫也逐漸成熟、走向商用。”
2024年,在這兩大主流趨勢推動下,OceanBase有了更大的作戰空間。
當然,他們也有了新的思考和目標。
數據庫的艱難十年
2014年11月,在AWS re:Invent大會上,亞馬遜官宣發佈了Amazon Aurora,Aurora的發佈,拉開了自研數據庫的帷幕。
當時中國數據庫商用市場仍處於初期階段,雖然Oracle在1989年就已經進入中國市場,並帶動了鐵路、金融、運營商等大型國央企的信息化升級,但由於高昂的售價和運維費用,每年這些企業都需要鉅額費用支出,自研數據庫在這時的中國呼之欲出。
2010年,44歲的陽振坤加入阿里,帶隊開啓了阿里的數據庫自研之路,更準確的說法是,陽振坤這一年在阿里內部開啓了分佈式數據庫OceanBase的自研之路。
這一年,關係型數據庫仍是主流,但行業中已經有了NoSQL有可能取代關係型數據庫的熱議,而分佈式數據庫還只是一個不被看好的小衆路線。
楊冰回憶稱,“十幾年前,由於分佈式數據庫的技術還很不成熟,就連如何用中間件做分庫、分表都還是一件很複雜的事,因而算是一條很小衆的技術路線。”
不過,這還不是阿里自研數據庫之初遇到最大的難題,他們當時遇到最大的難題其實是人才短缺。
當時雖然一些IT技術人員已經開始使用數據庫,但由於這項技術複雜度高,在國內起步較晚,真要做數據庫自研,很難招到優秀的數據庫人才。
這也是OceanBase後來每年召開開發者大會,在開發者社羣上不斷投入,甚至直接與高校合作,聯合高校培養人才的原因之一。
當然,這些都是後話,在阿里決定自研數據庫時,擺在他們面前的第一個問題是——選擇開源路線,還是純自研路線?
選擇開源路線的話,相當於站在了巨人的肩膀上,不用經歷從0到1的冷板凳和痛苦閉關,但問題在於,當時國內企業在實際應用場景中,遇到的很多問題通過開源數據庫已經無法從根本上得到解決。
例如,隨着企業對於海量數據、高速寫入的需求越來越大,LSM-Tree數據結構剛好適合這樣的需求。
然而,在傳統的數據庫架構中,基於LSM-Tree構建索引、進行數據查詢這樣最基本的需求並不友好。
選擇純自研路線,可以從底層架構上打破傳統規則,可以設計一個全新的、更適合應用需求的架構,這樣自然也更容易解決數據庫行業當時看似衝突的業務需求。
但這樣從無到有根技術的突破,是一個痛苦而又煎熬的過程。
當時的OceanBase團隊在二者之間,最終還是選擇了純自研這條“不歸路”。
就是這樣一條純自研、當時看起來又很小衆的技術路線,OceanBase堅持了10年。
楊冰說,“目前,OceanBase已經做到了100%根自研。”
“從第一行代碼寫起,我們知道每一行代碼是如何實現的,網絡存儲CPU是如何調度的,所以我們結合各個專有云、公有云場景做了大量的技術嘗試和自研創新。”
2014年,原生分佈式數據庫OceanBase取代了原本的集中式數據庫,支撐起了支付寶核心交易系統,並開始承擔“雙十一”10%的交易流量;
2016年,OceanBase 1.0版本正式發佈,這一年“雙十一”期間支付寶所有支付數據鏈和交易數據鏈全部運行在了OceanBase上,在阿里內部率先實現了核心業務替代;
2021年,OceanBase發佈HTAP混合引擎,並正式對外開源,客戶數量超過400家,開始真正成爲通用型企業級分佈式數據庫。
“All in OceanBase”
當楊冰在2024年站到OceanBase數據庫城市行|粵港澳的講臺上時,分佈式數據庫已經不再是十年前那個小衆的技術路線,真正成了數據庫領域一條主流技術路線。
來自IDC的統計數據顯示,到2022年,中國分佈式事務數據庫在關係型數據庫中的佔比已經提升到了16.2%。
此外,據IDC預測,到2027年,中國分佈式事務數據庫總體市場年複合增長率將達到28.5%,其中在公有云上增長率將達到32.8%。
這樣的增長速度,已經超過了公有云本身的增速。
而楊冰在和一些機構分析師交流中也獲悉,以現有的增速來看,到2025年,國內使用分佈式數據庫的企業和場景佔比預計將會突破50%。
今天,用不用分佈式數據庫已經不再是一個問題,作爲國內最具代表性的分佈式數據庫,OceanBase如今也已經有了超千家客戶,諸如中國移動、交通銀行、理想汽車等一些頭部企業經過測試和準備,核心業務正在轉向OceanBase分佈式數據庫。
交通銀行貸記卡系統的分佈式改造,是其向全面分佈式轉型的關鍵一步,其中就包括在底層使用OceanBase。
通過使用OceanBase,大大提升交通銀行數據處理效率和系統可用性,金融TPS(每秒處理事務數)提升6倍、跑批效率提升超過7倍。
據楊冰在大會上公佈的數據顯示,如今的OceanBase已經服務了中國70%頭部銀行、75%頭部證券、45%頭部基金,以及20%省移動運營商和25%省人社部門。
在這個過程中,分佈式數據庫逐漸成爲現代數據庫的標準配置,越來越多企業開始選擇分佈式數據庫,開始“All in OceanBase”。
“一體化”新趨勢
2023年11月16日,在OceanBase2023年度發佈會上,OceanBase 4.2.1 LTS正式發佈。
OceanBase 4.2.1 LTS獨特之處在於,這是OceanBase首個長期支持的一體化數據庫版本。
什麼是分佈式一體化數據庫?
在傳統概念中,與分佈式架構相對應的是集中式架構,然而,企業往往是線性發展路線,在不同階段,對兩類數據庫可能存在着不同的需求,這就意味着,對於數據庫供應商而言,難以從工程和產品設計上將兩類產品完全切分開來。
“分佈式和集中式本身不是對立的,”這是楊冰和OceanBase團隊這幾年做數據庫產品研發和工程實踐的切身體會。
這也就有了OceanBase將分佈式和單機數據庫融合在一起的設計思路來源。
vivo是受益於這類數據庫產品的企業之一,vivo體系與流程部IT部DBA組總監鄢楠指出,“vivo現在內部業務系統已經從十幾個數據庫實例發展到了數千個,其中既有使用商業數據庫的業務系統,也有使用開源數據庫的業務系統,基於降本增效考慮,在2023年開始基於OceanBase自建數據庫。”
在這一過程中,vivo使用的正是OceanBase 4.2.1版本,也就是OceanBase的單機分佈式一體化產品。
基於這一版本,在半年時間裡,OceanBase已經在vivo內部15個生產業務系統上線應用,在vivo原有的MySQL分庫分表架構替換爲OceanBase後,總資源佔用節省了80%,極大地降低了vivo團隊的運維成本。
一體化是楊冰篤定的數據庫技術趨勢,也是貫穿OceanBase過往十四年研發歷路中始終如一的方向。
在過往十四年裡,OceanBase團隊已經基於自家數據庫實現了工程一體化、TP/AP一體化、雲上雲下一體化、單機分佈式一體化,這四個“一體化”打造出的數據庫,也是楊冰認爲接下來新一代數據庫該有的樣子。
就在前不久,螞蟻集團官宣,旗下螞蟻國際、OceanBase和螞蟻數科已成立董事會,開始獨立面向市場。
與此同時,OceanBase在3月20日的大會上官宣升級2022年發佈的珊瑚計劃,提高專有云夥伴簽約佔比至70%,夥伴獨立交付佔比提高到30%。
OceanBase分佈式數據庫規模化商用落地節奏由此也得以再次加快。
作爲自2020年開始獨立商業化的技術團隊,2024年,當OceanBase正式獨立運營、加快進入市場時,一個數據庫行業新週期也悄然拉開帷幕。