色控传媒

Skip to Content
指南

大数据初学者指南

什麼是大数据?它如何運作? 與我們一起深入探討大數據,了解擷取深度資訊為公司執行決策所需的技術。

什麼是大数据?

现今公司从各种来源收集大量资料,且通常必须即时分析这些资料。大数据是指传统技术无法处理的大量、快速或复杂资料内容。大数据也对许多技术及策略贡献良多,例如智慧生成领域,包括预测式分析、物联网、人工智慧等新兴科技都是由大数据所推动。

,2026 年全球大數據市場的預估市值將達 $1,560 億美元,企業組織最好趕緊搭上大數據快車。以下將概覽介紹大數據是什麼、它從何而來、有何作用,以及公司如何調整 IT 架構,成功運用大數據。

相关文章

大数据的叁个「痴」

大數據的概念已行之有年,产业分析師 Doug Laney 在 2001 年率先提出了大数据的叁个「痴」。這三個「V」是:

  • 量:必須處理的資料量(通常很多-GB、EB 或更多)
  • 多样性:串流来自许多不同来源的多种结构化和非结构化资料
  • 速度:新资料串流进入系统的速度

有些資料專家將定義擴展到四個、五個或更多的 V。第四和第五個「V」為:

  • 真实性:资料的準确性、精确性和可靠性
  • 价值:资料提供的价值-是否对公司业务有助益?

虽然清单还可以继续列下去,最多可达 ,不过这五点最常用来定义大数据。

大数据有两种不同特色,差别在於处理过程以及查询问题的用途。

  • 批次处理任务通常使用大量储存的歷史资料来促成长期策略或解析大规模问题。摘要:海量资料、复杂的深度分析。
  • 串流资料比较不重深度,它注重的是可随选随用,立刻、即时的资讯,例如用来维持大量製程精确性的资料分析。这一类资料的型态通常数量庞大、变动迅速。摘要:海量高速的资料分析,复杂性不大,但变动非常快速。

了解更多大數據 vs. 傳統資料的差別。

大数据从何而来?

大数据是指现今所有收集而来的非结构化现代资料,以及如何运用这些资料进行深度智慧与深度资讯探讨。大数据常见的来源:

  • 物联网与数量繁多的装置和感应器上的资料
  • 机器生成的日誌记录资料,用以进行日誌分析
  • 软体、平台、公司应用程式
  • 人類活動:社群媒體、交易、線上點擊、健康記錄、自然资源使用量??等
  • 科学界及相关机构的研究资料

大數據的類別:結構化 vs. 非結構化

不同型态的资料需要不同型态的储存装置。结构化和非结构化资料即是如此,它们需要不同型态的资料库处理、储存及分析法。

结构化资料是傳統的資料型態,能夠填入固定格式。结构化资料通常可輕易分類、套入標準值的規格當中使用,例如價格、日期、時間??等。

非结构化资料是現代的資料型態,難以直接歸類編目。非结构化资料通常等同於今日的大數據,在未來幾年間將會佔大約 80% 的資料量。它包括了所有社群媒體、物聯網、內容產出者、監視器等裝置所產生的資料。它的形式可以是文字、圖片、聲音或影像。它是推動新型態儲存的原動力,例如 FlashBlade? 整合式高速檔案暨高速物件儲存 (UFFO)。為了妥善運用非结构化资料,企業組織需要更多儲存空間、更好的資料處理能力與整合跨類型資料的能力。

了解更多结构化资料 vs. 非结构化资料

大数据资料的生成週期為何?

大数据週期包含但不限於以下过程:

  1. 资料提取与採集。資料來源五花八門,包括了企業內部的規劃系統、物聯網感測器、軟體如行銷或 POS 應用程式、API 上的串流资料等等。資料的產出也各有差異,因此资料摄入便是重要的下一步。例如,公開的股市資料就會與內部系統的紀錄資料大相徑庭。
  2. 资料摄入。資料擷取、轉換、載入(ETL) 的通道會將資料轉換成適當的格式。不管是輸入 SQL 資料庫或是資料視覺化工具,都需要將資料轉換成操作工具可以讀取的格式。例如,姓名的格式可能不一致,這時,資料已準備就緒,可進行分析。
  3. 储存装置加载资料进行处理。下一步是将资料储存到另一空间,可以存在云端资料仓储或就地部署储存设备。资料处理过程依照资料加载方式而有不同,例如分批次加载,或是全天候的事件流处理。(注意:此一步骤可能发生在资料转换步骤之前,端赖公司需求而定。)

    了解更多:什麼是资料仓储?

  4. 资料查询与分析。現代化云端運算處理和儲存工具都對大數據週期進化造成了深遠影響。(注意:有些現代化工具像 Amazon Redshift 可能會省略 ETL 過程,讓你查詢資料更快速。)?
  5. 资料归档。不論是供長期存放的冷儲存還是放在比較「保鮮」、可隨時取用的空間之中,注重時效性的資料一旦功成身退就需要歸檔。若資料不需要隨取隨用,冷儲存是省錢又節省空間的好方法,尤其在資料存放需要符合規範或用來進行長期策略性決策的時候。這樣也能減少負面效能影響,伺服器不必一邊儲存暖資料還要一邊騰出 PB 容量給冷資料儲存。

公司可以用大数据来做什麼?

大数据有多种令人振奋的高效能用途。大数据的珍贵价值在於它带来的深入见解能够驱动商业突破。大数据常见的使用目标与应用方式:

  • 即時深入見解、即時串流资料智能分析,進而辨認異常、發出警訊
  • 预测式分析
  • 商业情报
  • 机器学习
  • 风险分析,防杜诈骗及资料外洩,并减轻资安风险
  • 人工智慧,包括图片辨识、自然语言处理、神经网路
  • 透过推荐引擎系统和预测式支援,改善用户使用体验及客户互动
  • 减少作业过程的成本与效率不彰问题(组织内部、製造等)
  • 资料驱动公关行销法,运用即时生成的海量社群媒体、消费者、数位广告资料点来进行分析

查看更多特定产业的大数据应用案例故事

如何储存大数据?

大數據的需求獨特,尤其在資料儲存裝置方面更是。它需要持續不中斷地寫入資料庫(這點與即時串流资料一樣),通常也包含型態迥異的資料格式。因此,通常大數據最好儲存在不限模式(非結構化)的作業環境中,以分散式檔案系統來啟動,才能在大規模的資料集之間平行處理資料。非结构化储存平台可以整合档案与物件式资料,所以相当适合大数据使用。

了解更多資料中樞 vs. 資料湖泊的差異。

边缘运算如何驱动大数据需求

物聯網 (IoT) 的崛起導致資料量大增,这些资料必须透过分散在终端位置的各组设备来管理。?

与其等候物联网将资料传送到资料中心之类的中心节点进行远端处理,不如利用边缘运算,这是一种分散式运算拓扑学的应用,在「边缘」节点上直接处理资讯,也就是人机互动生成新资料的位置。?

邊緣運算不僅節省商業成本與頻寬,也能讓企業開發效能更好的即時應用程式,提供客戶更佳的用戶使用體驗。隨著全新無線科技如 5G 技術陸續推出,大數據的趨勢在未來幾年只會有增無減。

隨著越來越多設備連接到網路上,需要在邊緣即時處理的資料量日益增加。為了符合逐漸增加的邊緣運算資料儲存裝置需求,儲存裝置如何達到應有的分散性與靈活性? 答案揭曉:容器原生資料儲存。?

仔細觀察現有的邊緣運算平台,像是 AWS Snowball、Microsoft Azure Stack、Google Anthos,都是以 Kubernetes 為基礎,這是一款相當受歡迎的容器化調度規劃平台。Kubernetes 讓這些工作環境得以在邊緣節點上運行资料摄入、儲存、處理、分析及机器学习的工作負載。?

在邊緣運作的多節點 Kubernetes 叢集需要高效能的,因应以资料為中心的特定工作负载需求。也就是说,在边缘运行的容器化应用程式需要达到容器资料精细度的储存管理。Portworx? 是一種資料服務平台,提供狀態應述的 Fabric 服務,可管理容器化遵循 SLA 的資料量。

了解更多大数据与物联网的关係。

可扩充的全快闪资料储存,因应所有大数据需求

在全快闪阵列上託管大数据的优点:

  • 速度更快(HDD 的 55-180 IOPS 與 SSD 的 3K-40K IOPS)
  • 為 I/O 作業使用超過 64K 的佇列進行大規模平行處理
  • 非揮發性記憶體儲存裝置 (NVMe) 的高效能和可靠性

大數據選擇 色控传媒? 有何優勢?

大數據的相對數量、類型和速度不斷在變化。如果您期望資料持續高速成長,就要不斷投資最新的儲存技術。快閃記憶日漸進步,可為所有資料層級提供客製化的全快閃儲存解决方案。以下是 Pure 協助推動大数据分析管道的方式:

  • 全快闪阵列的完整效益
  • 整合成统一的高效能资料中枢,能处理各种来源的高传输量资料流
  • 真正落實升級不中斷的 Evergreen? 方案,零停機時間,也不必進行資料搬移。
  • 简化的资料管理系统,结合云端经济与就地部署的控制性及效率。

使用 FlashBlade 享有快速、高效率、横向扩充的快闪储存功效

11/2024
Enhance Data Lakehouse Infrastructure
色控传媒? has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
解决方案簡介
3 頁

瀏览重要资讯与活动

精神领袖
创新竞赛

储存创新最前线的产业领导者最新深度资讯与观点。

了解更多资讯
分析报告
规划高度网路弹性的未来

了解协作策略,完整运用网路安全投资,并确保迅速回应与復原。

阅读报告
资源
儲存設備的未來:AI 紀元的新準則

了解 AI 等新挑戰如何促成資料儲存需求轉型,需要嶄新思維與現代化做法才能成功。

下载电子书
资源
不再购买储存,拥抱平台体验

探索公司级储存平台需求、元件与选用流程。

阅读报告
联繫我们
问题或建议

如對Pure的产物或认证,有任何的疑問或建議,歡迎與我們聯繫!

预约试用

預約現場示範,親眼看看 Pure 如何幫助您將資料轉化為強大的成果。?

联络我们:886-2-3725-7989

媒体:pr@purestorage.com

?

色控传媒總部

34F, Taipei Nanshan Plaza,

No. 100, Songren Road,

Xinyi District,

Taipei City 110016

Taiwan (R.O.C.)

800-379-7873?(一般资讯)

info@purestorage.com

关闭
您的瀏览器已不受支援!

较旧版的瀏览器通常存在安全风险。為让您使用我们网站时得到最佳体验,请更新為这些最新瀏览器其中一个。