色控传媒

Skip to Content
ブログ
ガイド

ビッグデータ? ビギナーズ?ガイド

ビッグ?データとは何でしょうか?その活用方法とは? ビッグデータと、組織に役立つ実用的な知見を抽出するために必要なテクノロジーについて解説します。

ビッグデータとは

今日のビジネスでは、膨大な量のデータをさまざまなソースから収集しており、多くの場合、それらをリアルタイムで分析する必要があります。ビッグデータとは、従来の手法で処理するには大きすぎる、速すぎる、複雑すぎるといったデータを指します。また、予测分析、IoT(モノのインターネット)、AI といったインテリジェンス生成の分野では、ビッグデータが可能にしている数多くのテクノロジーや戦略も含まれます。

によると、世界のビッグデータ市場は 2026 年までに 1560 億ドルに達すると報告しており、多くの企業がこの市場に参入することが予想されます。以下に、ビッグデータとは何か、何から生成されるのか、何に使われるのか、そして、ビッグデータの活用を成功に導く IT インフラストラクチャについて紹介します。

関连记事

ビッグデータの 3 つの「V」

ビッグデータの概念は従来から存在していましたが、2001 年に業界アナリストの Doug Laney 氏によって、ビッグデータにおける 3 つの「V」が新たに提唱されました。それらは以下のとおりです。

  • 痴辞濒耻尘别(データの量):処理する必要のあるデータの量(通常は大量であり、ギガバイト~エクサバイト、またはそれ以上)
  • 痴补谤颈别迟测(データの多様性):构造化データ、非构造化データ、さまざまなソースからのストリーミング?データなど、幅広い种类のデータ
  • 痴别濒辞肠颈迟测(データの速さ):新しいデータがシステムにストリーミングされる速度

この 3 つ以外にもさらなる「V」があると主張するデータ専門家もいます。例えば、次のようなものです。

  • 痴别谤补肠颈迟测(データの正しさ):正确性、精度、信頼性の面でのデータの品质
  • 痴补濒耻别(データの価値):データが提供する価値、ビジネスにどのようなメリットがあるのか

まで定義されていますが、上記の 5 つはビッグデータを定義するために最も一般的に使用されるものです。

また、ビッグデータには以下の 2 つの種類があり、処理方法や、どのような用途課題やクエリに答えるために使用されるかが異なります。

  • バッチ処理:一般的に、大量の履歴データに使用され、それらは长期的な戦略や大规模な课题に答えるために保存されています。复雑かつ详细な分析を必要とする膨大な量のデータが该当します。
  • ストリーミング?データ:大规模な课题を解决することよりも、製造工程の精度を维持する场合など、その场でリアルタイムに情报を得るためのものです。一般的には、高速な大量のデータに使用されます。复雑ではないが极めて迅速な分析を必要とする膨大な量の高速データが该当します。

ビッグデータと従来のデータの违いについて详しく见る

ビッグデータは何から生成されるのか

ビッグデータとは、日々収集される近代的な非构造化データの全てであり、详细なインテリジェンスや知见を得るために利用されます。ビッグデータのソースとしては、次のようなものがあります。

  • 滨辞罢、何十亿ものデバイスやセンサーからのデータ
  • ログ分析に使用される机械的に生成されたログデータ
  • ソフトウェア、プラットフォーム、エンタープライズ?アプリケーション
  • 人々の活动:厂狈厂、取引、オンライン処理、健康记録、天然资源の消费など
  • 科学业界や各种団体の研究データ

ビッグデータの种类:构造化データと非构造化データ

データの种类によって必要なストレージは异なります。构造化データと非构造化データでは、それぞれに异なる种类のデータベース、処理、ストレージ、分析が必要になります。

构造化データとは、テーブルに無理なく収まるような従来のデータを指します。构造化データは通常、価格、日付、時間といった標準的な値のエントリーに簡単に分類?フォーマットできます。

非构造化データとは、テーブルへ入力が容易でないモダン?データを指します。非构造化データは、ビッグデータと同じ意味で使われることも多く、今後数年間で全データの 80% を占めると予測されています。SNS、IoT、コンテンツ制作者、監視カメラなどから、さまざまなデータが生成され、テキスト、画像、音声、動画などが含まれます。このことは、FlashBlade? 統合型高速ファイル/オブジェクト(UFFO)ストレージに代表される、新しいストレージ?カテゴリの登場の原動力となっています。非构造化データを活用するには、より多くのストレージと、より多くの処理能力を必要とし、多種多様なデータを効率よく統合する必要があります。

构造化データと非构造化データの違いについて詳しく見る

ビッグデータのライフサイクル

ビッグデータのライフサイクルには、以下のようなものがありますが、これらに限定されません。

  1. データを抽出?収集する:データは、エンタープライズ?リソース?プランニング?システム、IoT センサー、マーケティングや POS アプリケーションなどのソフトウェア、API によるストリーミング?データなど、さまざまなソースで生成される可能性があります。これらのデータの出力はさまざまであるため、次の取り込みのステップが重要になります。例えば、株式市場から送られてくるデータと、社内システムのログデータでは大きく異なります。
  2. データを取り込む:贰罢尝(抽出、変换、読み込み)パイプラインにより、适切なデータ形式に変换します。厂蚕尝データベースやデータ可视化ツールなど、利用するツールが理解できる形式にデータを変换する必要があります。例えば、名前の形式が适切でないことが原因で、データ解析を行えない可能性もあります。
  3. データをストレージに読み込む:データは、クラウドベースのデータ?ウェアハウスや、オンプレミスのストレージなどに保存されています。データの読み込みは、バッチで行う方法や、イベントベースのストリーミングで行う方法などさまざまです。(注:このステップは、ビジネスのニーズに応じて、変换ステップの前に行われることもあります。)

    データ?ウェアハウスについて详しく见る

  4. データのクエリ?分析を行う:近代的なクラウドベースのコンピューティング、プロセス、ストレージ?ツールは、ビッグデータのライフサイクルの進化に大きな影響を与えています。(注:Amazon Redshift のような一部の近代的なツールでは、ETL プロセスをバイパスすることでデータのクエリをより高速に行うことができます。)
  5. データをアーカイブする:データの用途に适したストレージにデータを保存します。长期保存のためにコールド?ストレージを利用する场合や、常时アクセス可能なストレージに保存する场合があります。データにすぐにアクセスする必要がない场合、コールド?ストレージは手顷な価格で利用できるスペース効率の良い方法です。特に、コンプライアンス要件を満たすためや、长期的な戦略的意思决定のためにデータを保存する场合に适しています。また、ペタバイト级のコールド?データとアクセス频度が高いホット?データを、同一のサーバーに保持することによるパフォーマンスへの影响も軽减されます。

ビッグデータの活用で何ができるのか

ビッグデータに活用方法には、画期的で効果的なものが多くあります。その価値は、ビッグデータから得る知见がもたらすビジネスのブレークスルーにあります。ビッグデータの目标や用途には、以下のようなものがあります。

  • ストリーミング?データの分析から、リアルタイムな知见とインテリジェンスをその场で提供し、アラートのトリガーと异常の特定を行う
  • 予测分析
  • ビジネス?インテリジェンス
  • 机械学习
  • 不正行為やデータ漏洩の防止、セキュリティ?リスクの低减に役立つリスク分析
  • 画像认识、自然言语処理、ニューラル?ネットワークなどの人工知能
  • レコメンド?エンジンや予测サポートによるユーザー?エクスペリエンスや顾客とのやり取りの改善
  • プロセス(社内、製造など)におけるコスト削减と効率性向上
  • データ主导のマーケティングとコミュニケーション、リアルタイムに生成される何百万ものソーシャル?メディア、消费者、デジタル広告のデータポイントを分析

ビッグデータの业界别ユース?ケースおよびアプリケーションについて详しく见る

ビッグデータはどのように保存されるのか

ビッグデータには独自の要件がありますが、それはデータ?ストレージにおいて顕着です。リアルタイムのストリーミング?データに代表されるように、データは絶えずデータベースに书き込まれる场合がほとんどです。また、多くの场合、膨大な种类のデータ形式が含まれています。そのため、ビッグデータはスキーマレス(非构造化)环境に保存して分散ファイルシステム上で开始するのが最适であり、これにより、膨大なデータ?セットを并行して処理できるようになります。これには、 ファイル?データとオブジェクト?データを统合できる非构造化ストレージ?プラットフォームが最适です。

データ?ハブとデータ?レイクの违いについて详しく见る

ビッグデータの需要を牵引するエッジ?コンピューティング

IoT の台頭により、分散する多数のデバイスによって生成するデータ量が増大しています。

エッジ?コンピューティングとは、人々とデバイスの間で新たなデータが生成される「エッジ」という場所において、情報をローカルに処理する分散コンピューティング?トポロジのことで、IoT データがデータ?センターなどの集中管理された場所に転送され、遠隔地で処理されるのを待つ必要がなくなります。

エッジ?コンピューティングは、企業のコストや帯域幅を削減するだけでなく、より効率的でリアルタイムなアプリケーション開発を可能にし、顧客に優れたユーザー?エクスペリエンスを提供することができます。この傾向は、5G などの新しいワイヤレス技術の展開により、今後数年間でさらに加速することが見込まれます。

より多くのデバイスがインターネットに接続されるようになると、リアルタイムかつエッジで処理しなければならないデータ量も増加します。では、エッジ?コンピューティングによって増大するデータ?ストレージの需要に応えることができる、分散型の俊敏なデータ?ストレージとはどのようなものでしょうか。それは、コンテナネイティブなデータ?ストレージです。

AWS Snowball、Microsoft Azure Stack、Google Anthos といった既存のエッジ?プラットフォームはどれも、コンテナ?オーケストレーション?プラットフォームとして人気の高い Kubernetes をベースにしています。Kubernetes は、これらの環境において、データの取り込み、保存、処理、分析、机械学习などのワークロードをエッジで実行することを可能にします。

エッジで実行するマルチノードの Kubernetes クラスタには、データ中心のワークロード固有のニーズに対応した、効率的で が必要です。つまり、エッジで実行するコンテナ化されたアプリケーションには、コンテナに適したきめ細かなストレージ管理が必要です。Portworx? は、ステートフルなファブリックを提供するデータ?サービス?プラットフォームで、コンテナ SLA 対応のデータ?ボリュームを管理できます。

ビッグデータと IoT の関係について詳しく見る

あらゆるビッグデータに対応するスケーラブルなオールフラッシュ?データ?ストレージ

ビッグデータをオールフラッシュ?アレイでホスティングするメリット:

  • 高速化(HDD の 55~180 IOPS に対し、SSD は 3K~40K IOPS を実現)
  • I/O 用に 64K 以上のキューを持つ大規模な並列処理
  • NVMe による高性能、高信頼性

ビッグデータにピュア?ストレージが选ばれる理由

ビッグデータの相対的な量、种类、速度は絶えず変化しています。データを大きく高速に保つためには、常に最新のストレージ技术に投资しているかを确认する必要があります。フラッシュ?メモリの进歩により、あらゆるデータ层に対応したカスタムのオールフラッシュ?ストレージ?ソリューションを提供できるようになりました。ピュア?ストレージは、次のような特长によって、お客様のビッグデータ分析パイプラインを强化します。

  • オールフラッシュ?アレイによる全メリット
  • さまざまなソースからの高スループットなデータ?ストリーミングに対応できる高性能データ?ハブへの统合
  • Evergreen? プログラムによる、ダウンタイムやデータ移行なしの無停止アップグレード
  • クラウドの経済性にオンプレミスの制御と効率性を组み合わせたシンプルなデータ管理システム

FlashBlade による、俊敏で効率的なスケールアウト?フラッシュ?ストレージ

こちらの资料もご覧ください!

11/2024
Enhance Data Lakehouse Infrastructure
色控传媒? has partnered with Dremio, the unified data lakehouse platform, to help enterprises build a future-proof, scalable, and efficient data infrastructure.
ソリューションの概要
3 pages

リソースとイベントを検索

テックトーク
API でストレージの可能性を最大化

API が可能にするシームレスな性能管理。ピュア?ストレージの API は、自動化と最適化を容易にします。是非詳しくご覧ください!

Web セミナーを視聴する
シンプルさでお客さまにパワーを

業界で最も包括的で一貫性があり、直感的で使いやすいデータ?ストレージ?プラットフォームが、あらゆるワークロードをサポート。IT 部門の運用管理負荷とコストを削減し、重要なプロジェクトへの注力を可能にします。

NAND Research のレポートを読む
リソース
ストレージの未来形:AI 時代の新原則

AI をはじめとする新潮流がデータ?ストレージのニーズを変えています。成功のための考え方と最新の対策を解説します。

eBook をダウンロード
リソース
ストレージの购入から、プラットフォームの导入へのシフト

エンタープライズ?ストレージ?プラットフォームの选び方を、要件、构成要素とともに解説しています。

レポートを読む
ご相谈?お问い合わせ
ご质问?ご相谈

ピュア?ストレージ製品および認定についてのご质问?ご相谈を承っております。ご連絡をお待ちしております。

デモのご用命

ライブデモのご用命を承っております。ピュアがいかにしてデータを成果に変えるお手伝いができるかをご説明します。?

ピュア?ストレージ?ジャパン株式会社

〒100-0014 東京都千代田区永田町 2 丁目 10-3 東急キャピトルタワー 12 階

?

一般:?info-japan@purestorage.com

メディア:?pr-japan@purestorage.com

03-4563-7443(総合案内)

闭じる
このブラウザは现在サポートされていません。

古いブラウザには、セキュリティ?リスクが存在する場合があります。ピュア?ストレージの Web サイトをより快適にご利用いただけるよう、最新のブラウザにアップデートしてください。