大数据為公司带来商机无限,包括更有效的深入见解,让业主更加了解客户行為、更準确预测市场活动,以及改善总体效能。
年復一年,民眾和企業產出越來越多的資料。IDC 報告指出,光 2010 這一年,全世界就產出了 1.2 ZB(相當於 1.2 兆 GB)的全新資料。到了 2025 年,這個數字會攀升到 175 ZB(相當於 175 兆 GB),甚至更多1!
隨著企業界利用這項蓬勃發展的资源來進行預測式分析和資料探勘,大數據的市場也將持續成長。預估,大數據市場在 2018 年至 2027 年間會暴漲一倍,市值從 $1690 億增至 $2740 億。
那麼,大數據和傳統資料的關鍵差異到底在哪裡? 大數據又會對現行的資料儲存裝置、處理程序、分析技術有什麼潛在影響? 本文將解釋各類型資料的不同服務目標,並強調成功規劃出大數據與傳統資料同步運用策略的重要性。
?
什麼是传统资料?
传统资料是经结构化的关联式资料,数十年来已由公司组织广泛储存应用。时至今日,传统资料仍然佔资料量的绝大多数。
公司利用传统资料来追踨销售状况、管理客户关係或工作流程。传统资料通常运用简易,而且使用传统的资料处理软体就能管理。然而,相较於大数据,传统资料无法提供精确的深入见解,应用效益也很有限。
?
什麼是大数据?
大數據是指大型複雜的資料集,也可以指處理這類資料的方式。大數據有四個主要特點,通常被稱作「四個 V」:
- 资料量:大数据的资料量毋庸置疑,是非常的多。具有超大资讯量的特性。
- 多样性:大数据资料集通常包含了结构化、半结构化、以及非结构化资料。
- 速度:大数据生成速度飞快,经常需要即时处理。
- 真实性:大数据的资料品质并不一定比传统资料好,但真实性(準确性)是极其重要的一环。资料异常、偏差、杂讯都会严重影响大数据的资料品质。
?
大数据与传统资料之间的差异
要分辨大数据与传统资料,可利用几点特性:包括:
- 资料大小
- 资料的编排方式
- 管理资料所需的基础架构
- 资料来源
- 分析资料的方式
资料大小
傳統資料集通常使用 GB 或 TB 等計量單位。因此,這樣的用量大小可以集中儲存在中心裝置,有時僅需一個伺服器即可。
大數據不只是尺寸大,它的資訊量也非常大。大數據通常使用 PB、ZB 或 EB 等計量單位。大數據日益增加的海量資料集可說是幕後的主要推手,促成現代化、大容量、以云端為基礎的儲存解决方案。
资料编排
傳統資料一般都是結構化資料,以記錄、檔案、表格等方式編排 傳統資料集的欄位互相關聯,因此可用來找出資料間的關係,並據此操作資料內容。傳統資料庫如 SQL、Oracle DB、MySQL 都是使用預先配置好、固定不變的模式。
大數據是一個動態模式。大數據的儲存裝置既原始又未經結構化。在獲取大數據時,這些原始資料會適用動態模式。考慮到現代化非關聯式或 NoSQL 資料庫如 Cassandra 和 MongoDB 以檔案形式儲存資料的方式,它們都很適合非結構化資料。
基础架构
传统资料通常以集中式的架构来管理,对於较少量的结构化资料集来说,这样比较符合成本效益,也比较安全。
一般而言,集中式系统由一个以上的用户端节点(例如电脑或行动装置)连接至中心节点(例如伺服器)组成。中央伺服器控制网路并监控安全性。
由於規模龐大而且複雜,因此不可能從中央管理大數據。它需要分散式基础架构。
分散式系統透過網路連結多個伺服器或電腦,操作起來與其他同等節點一樣。基础架构可以橫向擴展,即使個別節點故障仍可繼續正常運行。分散式系統可以利用現成硬體來降低成本。
资料来源
傳統資料通常來自企業资源計劃 (ERP)、客戶關係管理 (CRM)、線上交易及其他企業級資料。
大數據則廣泛擷取企業或非企業的資料,包含社群媒體、裝置和感測器資料、視聽資料等片段。這些资料来源類型多變,每天都在進化成長。
非結構化资料来源包含文字、影像、圖片及聲音檔。傳統資料庫的行列式表格根本無法應用這些資料。因為有越來越多非結構化的資料、越來越多元的资料来源,想要妥善利用這些資料,大數據分析法不可或缺。
分析
传统资料分析法缓慢渐进:通常事件发生并产生资料之后才进行资料分析。传统资料分析仅能在特定期间内以有限变量协助公司了解已知策略或变动的影响。
大数据分析法则即时快速。大数据每秒都会生成资料,因此在收集资料的当下即可进行分析。大数据分析让公司更加动态全面地掌握供需与策略。
举例来说,若公司投资一项员工训练方案,并想要衡量成效:
以传统模式进行资料分析的话,公司必须决定要衡量训练方案在某特定领域所造成的影响,例如销售量。那麼该公司便可比较员工训练前后的销售量,并排除所有无关的因素。理论上,比较结果应能看出训练后是否对销售有所助益。
那麼,以大数据模式进行资料分析的话,公司可以不必纠结於训练方案对哪一块特定领域有所影响。相反地,只要分析整个公司体中即时收集的资料内容,便可以辨别受到影响的区块有哪些,像是销售、客户服务、公共关係等等。
?
大數據 vs. 傳統資料 籌備未來的重點考量
大数据和传统资料用途不同但却具有关联性。儘管大数据看来具备更多潜在效益,却并不适用所有情境,也非绝对必要。大数据的特点:
- 可提供更深入的市場趨勢與客戶行為分析 傳統资料分析較為狹獈受限,無法像大數據那樣提供深入見解。
- 更快速提供深度资讯。公司组织可以即时透过大数据了解现况。有了大数据分析,会更有竞争优势。
- 更有效率。日趋数位化的社会意味着群眾与公司每天、甚至每分鐘都在产生大量的资料。大数据让我们得以活用这些资料,并能进一步解读资料涵义。
- 需要進階準備工作 為了善加利用大數據的優勢,企業組織需要妥善準備,以因應新的資安協定、建置步驟,以及高規格的電腦效能要求。
大数据崛起不代表传统资料会就此淘汰出局。传统资料的特点:
- 保管简易,适用於高度敏感、个人或机密资料集。传统资料容量需求较小,因此不必使用分散式架构,通常也不太需要第叁方储存。
- 使用一般資料處理軟體和通用系統建置就能運用資料。大數據處理則需要更高階的建置設定,如果使用傳統資料就能完成分析工作,大數據反而會增加资源消耗與不必要的成本。
- 操作简易,解读方便。传统资料的特点是简单且彼此相关,只要使用一般功能即可进行分析,即使非专业人士也能理解。
总结来说,我们并不需要在大数据和传统资料之间做出抉择。随着越来越多公司产出大量的非结构化资料集,我们需要的是功能合适的工具。想為大数据的未来做好準备,就要随时更新策略,了解如何在两种模式之间转换使用至关重要。
?
- 結構化資料 vs. 非結構化資料
- 5 個方法,大數據助你搶得先機
- 物联网与大数据之间的关係