谷歌開放式湖倉架構:企業AI數據應用基石

企業一直依賴數據運營,但當數據被結構、系統或存儲方式分割時,它們從未能夠充分挖掘數據的全部價值。如今的企業需要靈活、治理良好的環境來支持運營和分析工作負載,這使得AI成爲所有商業戰略不可或缺的組成部分。

"問題不再是你是否會採用AI,而是你能多快、多有效地使用它,"谷歌雲數據和分析產品管理負責人Geeta Banda表示。

企業對此有清醒認識,AI增長前景就是明證。麥肯錫認爲,在十年期間,AI每年可以將美國生產力增長提高1.5%。但要參與這種增長,需要採用新的方式來挖掘數據價值。

這就是谷歌雲開放式湖倉架構的用武之地。這是湖倉架構的最新發展,該架構結合了結構化和非結構化數據。谷歌在其BigLake基礎上構建了這種湖倉架構版本,BigLake是一個存儲引擎,爲構建開放數據湖倉提供基礎。它使用開放數據格式,專爲大規模AI部署而設計。谷歌雲承諾,這將有助於加速模型開發、改善數據治理並簡化複雜的工具鏈。

企業成功的基礎缺陷

谷歌雲認爲我們需要這種架構,因爲太多公司試圖在破碎的基礎上構建AI。數十年的技術債務和架構複雜性爲AI成功創造了多重障礙。

在大多數企業中,數據分散在多個雲、SaaS應用程序和遺留系統中。即使是單個用例,將所有數據整合在一起也成爲一項艱鉅的任務。多模態數據的爆炸式增長加劇了這種複雜性。

"你最有價值的數據不再只是行和列,"Banda指出,"它存在於客戶通話記錄、產品圖像、PDF合同和視頻源中。"

"傳統數據倉庫無法勝任管理所有這些數據的任務,因爲它們只能處理高度結構化的數據,"她斷言。2000年代初期構建的BI系統無法支持非結構化數據,而且事實證明它們既不靈活又擴展成本高昂。

企業試圖用能夠接收大量原始數據的數據湖來彌補數據短板。但缺乏治理讓它們變成了"數據沼澤"。

開放式湖倉的興起

有AI抱負的企業需要在一個解決方案中結合數據倉庫和數據湖的能力。這就是谷歌開發開放式湖倉的原因。

早期湖倉版本爲數據湖存儲帶來了事務處理能力,但仍有自身侷限性。CIO們必須決定是選擇Iceberg等開放格式並自行管理複雜基礎設施,還是放棄開放和互操作服務的靈活性來獲得完全託管的服務。

Banda稱讚谷歌的開放式湖倉是兩全其美的方案:"存儲、管理和激活AI項目數據的新標準。"

該託管平臺基於BigLake、Iceberg原生存儲、無服務器Apache Spark和Dataplex通用目錄等創新技術,體現了谷歌在整個數據生命週期中統一結構化、半結構化和非結構化數據的承諾。

360度視角的組成要素

BigQuery產品負責人Gaurav Saxena確定了谷歌開放式湖倉架構與其他架構不同的三個主要特徵:

谷歌爲開源帶來"行星級"基礎設施。"我們將谷歌基礎設施的精華帶給開源,"他說。

它使用治理來指導AI處理所有相關數據。"我們幫助企業做的是消除孤島,將所有數據連接到所有用例,充分利用所有數據,無論是結構化還是非結構化,"他補充道,"這就是價值所在。"

開放式湖倉支持多模態用例,讓企業洞察通過不同來源和渠道進入的數據。"谷歌理解語音、音頻和所有類型的數據,我們可以將其擴展到多模態數據平臺,提供所有數據的360度視角,"他總結道。

開放式湖倉集成了幾個相互連接的組件,包括作爲基礎開放表格式的Apache Iceberg。它以ACID事務、模式演進和時間旅行(使用戶能夠查詢歷史快照)的形式爲數據湖存儲帶來倉庫可靠性。

BigLake管理統一存儲,在不犧牲開放性的情況下實施細粒度訪問控制、性能加速和數據生命週期管理。

該平臺支持可互操作的引擎,包括用於高性能SQL分析的BigQuery和用於大規模數據處理和機器學習的無服務器Spark。關鍵是,兩個引擎都在BigLake管理的相同Iceberg數據上運行,消除了數據移動和重複。

Dataplex通用目錄憑藉其自動發現、編目和元數據豐富功能,爲統一數據存儲帶來治理能力。

統一多樣化數據類型

由於非結構化數據傳統上是孤立的,從中提取價值需要對元數據的深入理解和將其引入統一數據平臺的方法。多模態表消除了這一難題,因爲它們可以結合非結構化和結構化數據,無縫擴展所有治理能力。

Dataplex通用目錄通過集中分散的被動系統幫助企業統一治理。它創建涵蓋所有數據資產的綜合目錄。目錄不是靜態清單,而是使用AI自動化發現、確保數據質量並跟蹤數據血緣。

這種能力改變了用戶可以向系統提出的問題,因爲他們不再侷限於結構化數據中包含的信息。Saxena舉了一個零售商的例子:"哪些客戶在支持電話中抱怨性能問題?"

靈活性和互操作性

易用性不僅爲最終用戶內置,也爲開發者內置。"該平臺旨在滿足開發者的需求,允許他們協作而不強迫他們使用單一僵化的工具鏈,"Banda解釋道。

例如,"數據分析師可以使用高性能SQL並繼續使用BigQuery,而數據工程師和科學家也可以使用高級分析,使用他們想要的任何工具,"Banda說。界面靈活性意味着開發者不會被鎖定在特定工具中。它支持BigQuery Studio、Jupyter筆記本和Looker連接。

正如Saxena指出的,開放格式是互操作性的關鍵。"Apache Iceberg已成爲領先的開放表格式。我們已將其作爲原生格式的一部分,併爲其帶來企業級能力,"他說。

開放式湖倉與Vertex AI(谷歌雲的完全託管、統一AI開發平臺)集成,爲谷歌的AI平臺提供動力。經過治理和編目的數據爲訓練模型提供可信輸入,而元數據則爲大語言模型提供基礎,減少幻覺並提高準確性。

第三方支持使用Iceberg和API等開放標準,保持引擎無關性。組織可以使用其他Iceberg兼容引擎,並從任何來源訓練模型,而不僅僅是Vertex AI。

AI加速價值實現

"簡化架構和減少開銷、加速數據管理、通過爲開發者提供使用自選工具的靈活性來民主化開發,以及優化成本和性能,這些都加速了AI的結果和價值,"Banda斷言。

統一的數據基礎消除了孤島。因此,Saxena解釋說,"你可以在規模上無縫地將數據與任何用例連接,而不會讓稀缺的工程資源成爲瓶頸。"

AI還加速編碼,增強人類能力以提高生產力。結果是,Saxena指出,"過去需要幾個月的工作現在只需幾天就能完成。"這是競爭優勢的關鍵:"組織現在有更多能力進行實驗並更快地將產品推向市場。"

實時響應

加速不僅是自動化的產物,也是開放式湖倉快速適應能力的產物。AI可以實時響應現實世界的事件,讓企業能夠立即解決和修復問題。結合AI和人在迴路中的能力進行快速響應,爲更廣泛的部署創造了信心。

這種實時洞察水平正是企業開始要求的。他們的數據查詢過去僅限於關於已發生事情的報告。但現在,正如Banda從與客戶的對話中觀察到的,人們希望他們的數據系統回答這個問題:"我接下來應該做什麼?"

統一數據平臺和AI輔助的結合使他們能夠獲得該問題的正確答案。谷歌希望,隨着人們追求越來越複雜的AI用例,其開放式湖倉架構將通過在最小化複雜性的同時解鎖結構化和非結構化數據的價值來幫助支持這些應用。