ビッグデータは、顾客の行动に関するより重要な洞察、市场活动に関するより正确な予测、事业全体にわたる効率性の向上など、ビジネスに计り知れない机会をもたらします。
人や企業が生み出すデータは年々増大しています。IDC 社のレポートによると、2010 年に世界で新たに作成されたデータは、わずか 1.2 ゼタバイト(1.2 兆ギガバイト)に過ぎませんでした。この数値は、2025 年には 175 ゼタバイト(175 兆ギガバイト)以上に増大する可能性があります。1
この豊富な资源を公司が予测分析やデータ?マイニングに活用することで、ビッグデータの市场も拡大することが予想されます。によると、ビッグデータ市場は 2018 年から 2027 年にかけてその価値を倍増し、1,690 億ドルから 2,740 億ドルまでに成長すると予測されています。
しかし、ビッグデータと従来のデータでは、どのようのな违いがあるのでしょうか。また、それらは现在のデータ?ストレージ、処理方法、分析技术にどのような影响を与えるのでしょうか。以下に、それぞれのデータの目的を説明するとともに、ビッグデータと従来のデータの活用を成功に导くための戦略の重要性を绍介します。
?
従来のデータとは
従来のデータとは、これまで多くの组织が何十年もかけて保存?処理してきた构造化されたリレーショナル?データのことです。世界のデータの大半は、依然として従来のデータが占めています。
公司は従来のデータを、売上げの追跡、顾客関係やワークフローの管理に利用しています。多くの场合、従来のデータは操作が容易で、従来のデータ処理ソフトウェアで管理することができます。しかし、一般的にはビッグデータよりも洗练された洞察力に欠け、メリットも限られています。
?
ビッグデータとは
ビッグデータとは、大規模で複雑なデータ?セットと、このような種類のデータを処理するために使用される手法の両方を指します。ビッグデータには、「4 つの V」と呼ばれる大きな特徴があります。
- 痴辞濒耻尘别(データの量):ビッグデータは、名前のとおり大きなデータを表します。サイズが大きいことに加えて、データ数が多いという特徴があります。
- 痴补谤颈别迟测(データの多様性):ビッグデータには、通常、构造化データ、半构造化データ、非构造化データが含まれます。
- 痴别濒辞肠颈迟测(データの速さ):ビッグデータは迅速に生成され、多くの场合、リアルタイムで処理されます。
- 痴别谤补肠颈迟测(データの正しさ):ビッグデータの质が、従来のデータと比较して必ずしも优れているというわけではありませんが、その真実性(正确性)は极めてに重要です。异常、偏り、ノイズなどは、ビッグデータの质に大きな影响を与える可能性があります。
?
ビッグデータと従来のデータの违い
ビッグデータと従来のデータは、次のような特徴によって区别できます。
- データのサイズ
- データの构成
- データを管理するために必要なアーキテクチャ
- データの生成元(ソース)
- データの分析方法
サイズ
従来のデータ?セットは通常、ギガバイト(GB)やテラバイト(TB)といった単位で表せます。したがって、そのようなサイズであれば、1 台のサーバーに集約して保存できます。
ビッグデータの特徴は、サイズだけでなく、データ数の多さにもあります。ビッグデータは通常、ペタバイト(PB)、ゼタバイト(ZB)、エクサバイト(EB)といった単位で表されます。ビッグデータのサイズがますます大きくなっていることが、近代的で大容量のクラウドベースのデータ?ストレージ?ソリューションが求められる要因の 1 つとなっています。
构成
一般的な従来のデータは、記録、ファイル、表などで构成された構造化データです。従来のデータ?セットのフィールドはリレーショナルであるため、それらの関係を把握し、必要に応じてデータを操作することが可能です。SQL、Oracle DB、MySQL などの従来のデータベースは、静的で事前构成された固定スキーマを使用します。
ビッグデータでは、動的スキーマを使用します。ビッグデータは、ストレージ内では raw データであり、構造化されていません。ビッグデータにアクセスすると、raw データに動的スキーマが適用されます。Cassandra や MongoDB のような近代的な非リレーショナル(NoSQL)データベースは、データをファイルに格納する方法において、非構造化データに最適です。
アーキテクチャ
従来のデータは通常、一元化されたアーキテクチャを使用して管理されるため、小规模で构造化されたデータ?セットに対しては、费用対効果が高く、十分な安全性も备えています。
一般的に、一元化されたシステムは、1つまたは複数のクライアント?ノード(コンピュータやモバイル?デバイスなど)が、中央ノード(サーバーなど)に接続される构成です。中央のサーバーがネットワークを制御し、セキュリティを監視します。
ビッグデータは、その规模や复雑さが原因で一元的に管理することは不可能です。そのため、分散型のアーキテクチャが必要となります。
分散システムは、ネットワークを介して复数のサーバーやコンピュータを接続し、同等のノードとして动作します。このアーキテクチャは、水平方向に拡张(スケールアウト)することができ、个々のノードに障害が発生した场合でも机能を维持することができます。分散システムでは、汎用的なハードウェアを活用してコストを削减することができます。
ソース
従来のデータは、ERP(エンタープライズ?リソース?プランニング)や CRM(カスタマー?リレーションシップ?マネジメント)、オンライン?トランザクションで生成されるデータや、その他のエンタープライズ?レベルのデータが一般的でした。
ビッグデータとは、より広範なデータを指し、エンタープライズ?レベルのデータに限らず、SNS から取得した情報、デバイスやセンサーのデータ、音声や映像のデータなどが含まれます。この種のソースは、ダイナミックに進化しており、日々成長しています。
非构造化データ?ソースには、テキスト、动画、画像、音声のファイルも含まれます。このようなデータを、列や行を使用する従来のデータベースで扱うことは不可能です。非构造化データの量が日々増加し、ソースも多様化している中で、そこから価値を引き出すためには、ビッグデータに特化した分析手法が必要となります。
分析
従来のデータ分析は、段阶的に行われていました。イベントが発生し、データが生成され、そのデータの分析をイベントの后に行うというステップです。従来のデータ分析は、特定の期间の限られた范囲の指标において、ある戦略が与える影响や変化を理解するのに役立ちます。
ビッグデータの分析は、リアルタイムで行うことができます。ビッグデータは秒単位で生成されるため、データを収集しながら分析を行うことができます。ビッグデータの分析は、公司のニーズや戦略をよりダイナミックかつ包括的に理解することを可能にします。
例えば、ある公司がスタッフのためのトレーニング?プログラムに投资し、その効果を测定したいとします。
従来のデータ分析モデルの场合、トレーニング?プログラムが特定の対象(営业部门など)に与える影响を调べようとします。そのためには、トレーニング前后の贩売量を记録し、それ以外の余计な要因を排除します。理论的には、トレーニングによって、どれだけ売上げが伸びたかを知ることができます。
いっぽう、ビッグデータを利用した分析モデルでは、そのトレーニング?プログラムが业务の特定の分野に対してどのような影响を与えたかという质问を设定することができます。つまり、ビジネス全体でリアルタイムに収集された大量のデータを分析することで、営业、顾客サービス、広报など、影响を受けた分野を特定することができます。
?
ビッグデータと従来のデータの违い:将来における重要な検討事項
ビッグデータと従来のデータには、それぞれ异なる目的がありますが、それらは関连しています。ビッグデータは、より大きなメリットをもたらす可能性があると思われがちですが、どのような状况にも适している(または、必要である)というわけではありません。ビッグデータには、以下のような特徴があります。
- 市场の动向や消费者の行动をより深く分析できる。ビッグデータが提供できる実用的な洞察を得るには、従来のデータ分析は闭锁的で制限が多すぎます。
- 洞察をより早く提供できる。ビッグデータを活用する组织は、データからリアルタイムに学ぶことができます。ビッグデータ分析において、このことは竞争优位性をもたらします。
- 効率性に优れる。デジタル化が进む现代社会では、人々や公司は、日々ほぼ分単位で、膨大な量のデータを生成しています。ビッグデータは、このデータを活用して実用的な方法に解釈することを可能にします。
- 高度な準备が必要。上记のようなメリットを享受するには、新しいセキュリティ?プロトコルや设定手顺を备え、処理能力の强化などを行い、ビッグデータに対応する必要があります。
ビッグデータの台头によって、従来のデータがなくなるわけではありません。従来のデータには、以下のような特徴があります。
- セキュリティの确保が容易。そのため、机密性の高いものや、个人情报などのデータ?セットに适しています。従来のデータはサイズが小さいため、分散アーキテクチャを必要とせず、サードパーティのストレージが必要になる可能性も低くなります。
- 従来のデータ処理ソフトウェアと通常のシステム构成で処理が可能。ビッグデータを処理するためには、一般的に、高度な构成をセットアップする必要があり、従来のデータ処理方法で対応する場合、リソースの使用量やコストが不必要に増加する可能性があります。
- 操作や解釈が容易。従来のデータは、シンプルでリレーショナルな性质であるため、通常の関数を使って処理することができ、専门家でなくても容易に扱うことができます。
结局のところ、これはビッグデータと従来のデータのどちらを选択するかということではありません。より多くの公司が大规模な非构造化データ?セットを生成するようになると、それらを扱うための适切なツールが必要になります。両方のモデルをどのように使用し、サポートするかを理解することは、ビッグデータの将来を见据えて戦略を更新するために必要なことです。
?
- 构造化データと非构造化データ
- ビッグデータが企業にもたらす 5 つのメリット
- ビッグデータと IoT の関係