色控传媒

Skip to Content

现代化智慧时代的全新储存架构

给储存产业的一封信

以数据分析和人工智慧為基础而建立的现代化智慧時代,為儲存产业帶來了獨特的新契機。资料是全新的貨幣,而我們的契機就是成為該貨幣的守護者。過去,我們一直阻礙著企業在资料應用上的進步。一些老舊的架構,例如:资料穀倉(data silo)與资料湖泊(data lake),其設計目的都是為了將资料鎖在某個地方,因此無法做到能讓资料完整發揮價值的一項重要工作,也就是:分享。

资料湖泊已日薄西山,它建立在一個過氣的假設之上,也就是所有非結構化资料都必須保存。在這「後资料湖泊時代」,我們需要一套新的儲存標準。现代化智慧需要一套不單只為儲存资料而設計的架構,還要能夠分享和傳送资料。我们称此全新架构為资料中樞(Data Hub)

?

资料應該發揮作用的重要性不難理解。根據百度(Baidu)最近所做的一份研究顯示,其资料集(dataset)必須成長1,000萬倍才能將其語言模型的錯誤率從4.5% 下降至3.4%[1]。換句話說,要1,000萬倍以上的资料才能產生1% 的進步。美國史丹福大學一位人工智慧領域的傑出專家Andrew Ng教授指出:「资料(而非軟體)是許多企業能夠防守的邊界(競爭優勢)」[2],但企業必須「整合其资料倉儲」[3]

這項針對资料整合的重大呼籲點出問題的核心。资料全都卡在各種錯綜複雜的穀倉當中,而儲存产业要負大部分的責任。當一個产业全心全意都在開發「儲存」的技術時,自然而然地造就了許多资料穀倉,形成了资料孤島。然而在今日资料優先的世界裡,资料穀倉反而會降低生產力,因為那些可分析洞見並推動創新的現代化應用程式無法取得所需的资料。

因此,該是重新思考儲存架構的時候了。资料中樞的基本設計原則就是不僅要能儲存资料,還要能夠整合並傳送资料。整合资料意味著同樣的资料可以讓多個應用程式在同一時間存取,而且不失资料一致性。傳送资料意味著每個應用程式在存取资料時都能獲得它所需的完整效能,以跟上今日企業的腳步。资料中樞打破了傳統基礎架構的资料孤島,所有應用程式不再擁有自己的资料穀倉,也不再需要複製资料集。

资料中樞是一種资料導向的儲存架構,是數據分析與人工智慧的基礎。其架構建立在四項基本特性之上:

●????? 高速的檔案及物件儲存吞吐量。

●????? 原生向外擴充的設計。

●????? 滿足多重需求的效能。

●????? 大規模平行架構。

?

現代數據分析領域當中有四大资料穀倉:资料倉儲、资料湖泊、串流分析與人工智慧叢集。资料倉儲需要龐大的吞吐量。资料湖泊需要能夠向外擴充的儲存架構。串流分析已超越了资料湖泊的批次作業,儲存必須提供滿足多重需求的效能,不論资料的規模大小與I/O類型(隨機或循序存取)。至於由數以萬計的GPU核心所構成的人工智慧叢集所需要的儲存,不僅要提供大規模的平行作業來服務數以千計的用戶端與數十億個物件,而且不能出現资料瓶頸。

最后还有云端,应用程式正逐渐朝云端原生迈进,并且建立在基础架构分散且储存无限的假设之上。云端储存的基本标準是物件。



所以,资料中樞必須上述四項特性兼備,因為所有特性都是资料整合所必需。资料中樞或許還具備其他特性,例如快照和複製,但如果前述四項特性有任何一項缺乏,那這個儲存平台就不是為今日的挑戰與明日的發展性而打造。例如,如果某個儲存系統能夠提供高吞吐量的檔案存取,且原生具備向外擴充能力,但卻需要另一套系統來提供S3物件支援以滿足云端原生工作負載的需求,那麼资料整合就會破功,资料的速度也會緩慢,這就無法擔任资料中樞。

?


1?Deep Learning Scaling is Predictable, Empirically(深度學習規模擴充在實務經驗上是可預期的): https://arxiv.org/pdf/1712.00409.pdf
2 https://hbr.org/2016/11/what-artificial-intelligence-can-and-cant-do-right-now
3 Nuts and Bolts of Applying Deep Learning, https://www.youtube.com/watch?reload=9&v=5PrvLq6_xm8

您的瀏览器已不受支援!

较旧版的瀏览器通常存在安全风险。為让您使用我们网站时得到最佳体验,请更新為这些最新瀏览器其中一个。