色控传媒

Skip to Content
ブログ
ビッグデータの基础

构造化データと非构造化データ

データの定義およびデータに対する解釈が、この 10 年間で大きく変わりました。非构造化データの読み取り、保存、分析を行うための新たなツールが登場したことが 1 つの要因となっています。

従来、非构造化データは、解釈が困难なことが理由で、十分に活用されていませんでした。新たなテクノロジーによって、非构造化データを理解することが容易になり、さらに、非构造化データという情报の宝库から贵重な知见を引き出せるようになっています。

、2024 年までに世界中で作成、取得、コピー、消費されるデータの総量は、毎年 149 ゼタバイトを超え、その多くは非构造化データであると予測されています。非构造化データの分析機能を構築することで、あらゆる組織がメリットを得ることができます。そのためにはまず、构造化データと非构造化データの違いを理解する必要があります。

以下に、両者の违いを简単にまとめ、より详细な説明を続けます。

特徴

构造化データ

非构造化データ

データの性质

通常は定量的

通常は定性的

データ?モデル

事前定义。いったん定义され、データが保存されると、モデルの変更は困难。

特定のスキーマは存在せず、データ?モデルは非常に柔软。

データ形式

使用できるデータ形式は限られている

膨大な种类のデータ形式を使用可能

データベース

SQL ベースのリレーショナル?データベースを使用

特定のスキーマを持たない NoSQL データベースを使用

検索

データベースやデータ?セット内のデータを非常に简単に検索?発见できる

构造化されていないため、特定のデータを検索することは非常に困难

分析

定量的なデータであるため、分析が容易

ソフトウェア?ツールを利用しても、分析は极めて困难

保存场所

データ?ウェアハウス

データ?レイク

Slide

构造化データとは

构造化データは、保持する情報について明確に定義されたスキーマがあります。非常に単純に定義すると、Google スプレッドシートやMicrosoft Excel などの表計算プログラムで表せるデータは全て构造化データです。

この场合、データは行と列で表现されます。各列は异なる属性を表し、各行は単一のインスタンスの属性に関连付けられたデータを持ちます。行と列によって、简単に参照できる表が形成されます。

异なる表を连结することもでき、そのことはつまり、両方の表に存在する共通の列によって関连付けられていることになります。

複数の表を連続して組み合わせて関連付けることで、リレーショナル?データベースができあがります。例えば、デパートの顧客データ、売上データ、在庫データなどは、リレーショナル?データベースとして保存されている构造化データです。

  • 各顧客には顧客 ID のほか、氏名、連絡先、クレジット?カード情報、住所などのフィールドがあります。
  • 顧客データベースは、売上データベースと接続することができ、購入時刻、購入品のアイテム?コード、購入金額、顧客 ID などの属性を持つことができます。これらの表は、顧客 ID という共通の属性で関連付けられています。
  • さらに、アイテム?コードという共通の属性を使用して売上データベースを在庫データベースに接続することで、リレーショナル?データベースに 3 つの表を効果的に相互接続することができます。

このような構造化されたデータは、一般的にリレーショナル?データベース管理システム(RDBMS)に格納されます。データベースは、SQL(Structured Query Language)を使って記述、読み取り、操作することができます。SQL は、1970 年代に IBM 社がメインフレームのデータベースをサポートするために開発した言語で、当初は、SEQUEL(Sequence English Query Language)と呼ばれていました。英語によく似た読み方をすることがこの名前の由来です。現在の形の SQL は、Relational Software, Inc.社(現 Oracle 社)によって広められました。

非构造化データとは

非构造化データとは、構造化されていないデータを意味します。構造化されていない全てのデータが非构造化データに分類されます。2025 年には、私たちが扱うデータの 80% が、テキスト、音声、画像、動画などによる非构造化データになると予測されています。1

すなわち、といえます。非构造化データには次のような特徴があります。

  • 本质的にデジタルで、予测不可能
  • 常时生成され、动的に変化する
  • ブレンド、マルチモーダル、相互运用が可能
  • 地理的な分散により保护される

非构造化データには、構造を持つメタデータが関連付けられている場合があります。例えば、動画には、解像度、ビットレート、1 秒あたりのフレーム数(FPS)、所有者などのメタデータを関連付けることができます。しかし、動画自体は構造化されていません。構造化されたメタデータが関連付けられている非构造化データを、半构造化データと呼ぶことがあります。

YouTube の動画を例に挙げると、アップロードした日時、視聴回数(部分?全体)、評価の数といったメタデータが存在します。しかし、動画自体の内容、タイトルや説明文は構造化されていません。それらは、単純に数字だけでは捉えられないという特徴があります。

非构造化データ用のデータベースとして最もよく使われているのが NoSQL です。NoSQL は「not only SQL」の略で、SQL データベースのケイパビリティを超えて、より広範囲のデータを扱えることを示しています。NoSQL データベースには、スキーマや表形式の構造はなく、データをグループ化するだけです。

?

UFFO を利用した非构造化データの保存

非构造化データを活用することで、大きな変革の可能性を秘めた重要な知見を提供できるかもしれませんが、それにはさまざまな課題が存在します。ピュア?ストレージの先進的な UFFO ストレージ?ソリューションである FlashBlade? は、フラッシュ?ストレージ技術による優れたスピードを提供するだけでなく、あらゆるアーキテクチャを俊敏に拡張する能力を備えています。ご興味をお持ちのお客様には、FlashBlade を無料でお試しいただけるテスト?ドライブをご用意しています。

関连製品およびソリューション

ソリューション
データ分析

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

こちらの资料もご覧ください!

04/2025
Compliance Assessment Report: 色控传媒 FlashBlade File Storage
色控传媒 FlashBlade File Storage: SEC 17a-4(f), SEC 18a-6(e), FINRA 4511(c) and CFTC 1.31(c)-(d) by Cohasset Associates Inc.
アナリスト?レポート
29 pages

リソースとイベントを検索

テックトーク
API でストレージの可能性を最大化

API が可能にするシームレスな性能管理。ピュア?ストレージの API は、自動化と最適化を容易にします。是非詳しくご覧ください!

Web セミナーを視聴する
シンプルさでお客さまにパワーを

業界で最も包括的で一貫性があり、直感的で使いやすいデータ?ストレージ?プラットフォームが、あらゆるワークロードをサポート。IT 部門の運用管理負荷とコストを削減し、重要なプロジェクトへの注力を可能にします。

NAND Research のレポートを読む
リソース
ストレージの未来形:AI 時代の新原則

AI をはじめとする新潮流がデータ?ストレージのニーズを変えています。成功のための考え方と最新の対策を解説します。

eBook をダウンロード
リソース
ストレージの购入から、プラットフォームの导入へのシフト

エンタープライズ?ストレージ?プラットフォームの选び方を、要件、构成要素とともに解説しています。

レポートを読む
ご相谈?お问い合わせ
ご质问?ご相谈

ピュア?ストレージ製品および認定についてのご质问?ご相谈を承っております。ご連絡をお待ちしております。

デモのご用命

ライブデモのご用命を承っております。ピュアがいかにしてデータを成果に変えるお手伝いができるかをご説明します。?

ピュア?ストレージ?ジャパン株式会社

〒100-0014 東京都千代田区永田町 2 丁目 10-3 東急キャピトルタワー 12 階

?

一般:?info-japan@purestorage.com

メディア:?pr-japan@purestorage.com

03-4563-7443(総合案内)

闭じる
このブラウザは现在サポートされていません。

古いブラウザには、セキュリティ?リスクが存在する場合があります。ピュア?ストレージの Web サイトをより快適にご利用いただけるよう、最新のブラウザにアップデートしてください。