データテクノロジー&プラットフォームサービス コラム

構造化データと非構造化データとは?活用の難しさと解決手法

企業のDX(デジタルトランスフォーメーション)、デジタル戦略において近年、ユーザーニーズに即した商品開発やLTV(ライフタイムバリュー:顧客生涯価値)の向上、ITによる業務効率化などを目的として非構造化データの分析・活用の重要性が高まっています。そこで今回は「非構造化データは構造化データと何が違うのか」と「非構造化データの活用がなぜ重要で、なぜ活用が難しいのか」を紐解き、「どうすれば非構造化データが活用可能になるのか」をトッパンのサポート領域も含めて解説します。


<目次>

■ 「構造化データ」「非構造化データ」の違い
1|構造化データとは
2|非構造化データとは
■ 非構造化データの活用はなぜ重要?難しい理由は?
■ 非構造化データを活用するには
1|規則性があり、表形式の構造化データに変換して同様の手法で処理できるデータ
2|規則性がなく、構造化データへの変換が困難、または変換できないデータ
■  非構造化データの「適切な管理」という課題
1|データの保管・運用管理
2|データの検索・更新性の維持
3|セキュリティ対策とガバナンス
■ まとめ


「構造化データ」「非構造化データ」の違い

まず初めに、「構造化データ」「非構造化データ」の違いから解説します。

1 | 構造化データとは

構造化データとは、ExcelやCSVファイルに代表される、「列」と「行」の概念をもつデータのことです。文字通り「構造化」されているため検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造です。ERP、CRMなどの業務システムでデータを効率よく管理するRDB(リレーショナル・データベース)でも用いられます。

例)CSV、固定長、Excel(リレーショナルデータベース形式)

2 | 非構造化データとは

非構造化データとは、その名の通り構造定義されていないデータのことを指します。データベース化ができないため、検索や集計、解析に不向きなデータです。eメール、提案書・企画書、見積書・発注書、契約書などのOffice文章、デザインデータ、CADデータ、画像、動画、音声、センサーログなど、日常の業務で生成されるさまざまなデータが含まれます。データ単体で意味を持ち、用途も異なるうえに量が多く、発生する頻度も高いのが特徴です。

*データ内に規則性に関する区切りはあるものの、データの一部を見ただけでは二次元の表形式(Excel形式)への変換可能性、変換方法が分からないXML、jsonなどの「半構造化データ」も含まれます。

例)規則性に関する区切りのないテキスト、PDF、音声、画像、動画

<構造化・非構造化データの違い>

非構造化データの活用はなぜ重要?難しい理由は?

これら「構造化データ」と「非構造化データ」の総称が「ビッグデータ」と言えます。DXやIoT、ビジネスのグローバル化などに伴い企業の保有するデータは増大の一途をたどっています。中でも圧倒的にボリュームと種類が多いのが非構造化データであり、構造化データと非構造化データの比率は2:8と言われています。

非構造化データにはドキュメント/テキストデータ、画像/動画/音声データ、電子メールなど、日々の業務に関連するものが多い傾向です。さらに、研究/開発/設計データ、ログデータ/分析データ/映像コンテンツなど、昨今のトレンドに沿った情報も多く含まれます。そのため企業のデジタル戦略は、非構造化データ活用を避けては通れません。

非構造化データを活用することで、企業はITを活用した業務効率化に加え、顧客の嗜好に沿った商品企画やLTVといった付加価値向上や、競争力強化などの効果を期待できます。総務省の調査(情報通信白書 平成27年版)によれば「経営全般」、「企画、開発、マーケティング」、「生産、製造」、「物流、在庫管理」、「保守、メンテナンス」の5つのデータ活用領域のうち、「経営全般」、「企画、開発、マーケティング」でのデータ活用の割合が高く、またいずれかの領域でデータを活用している企業は約8割となっています。

しかし、前述の通り非構造化データは構造定義を持たず、そのままでは処理が難しいデータです。いくら高度なAI(機械学習、ディープラーニング)やBI(ビジネスインテリジェンス)を用いても、そもそも「そのデータは何か」「どんな関係性があるか」が認識できなければ、分析などに活用できません。そのため、非構造化データを分析・活用するためには、「変換・加工」が必要になります。

「データ分析は準備の時間が8割」と言われるほど、そもそもこのデータが何か?という「理解」、活用のための「変換・加工」などの前処理に多大な時間と労力、コストがかかります。企業の取得可能なデータの大半が非構造化データであるにも関わらず、なかなか活用が進まないのはこのためでした。

<非構造化データ活用が難しい理由>

非構造化データを活用するには

「明確な構造定義を持たない」非構造化データですが、大きく2つに分類できます。
ここからは、それぞれをどのように「変換・加工」すれば活用できるのか解説します。

1|規則性があり、表形式の構造化データに変換して同様の手法で処理できるデータ

XMLはインターネットで広く利用され、3Dグラフィックスやソフトウェアの設定ファイル、RSSやAtomなどのフィードにも用いられています。JSONはXMLよりもさらにシンプルで処理が速く、最近ではWebサービスやスマホアプリのファイルの受け渡しなどによく利用されています。

XMLとJSONはどちらもテキスト形式のデータで、シンプル・軽量に扱えます。データ構造を自由に設計できる拡張性を持ち、共に書式と文法にルールがあります。XMLはデータ内に規則性に関する区切りがあり、JSONも一定のルールに従って記述されています。そのため、表形式の構造化データへ比較的容易に変換でき、非構造化データの中でも分析の対象にしやすいデータです。

2|規則性がなく、構造化データへの変換が困難、または変換できないデータ

非構造化データの中でもその特性から、管理も分析も難しいとされるデータです。近年では、「規則性がないデータから規則性を見つける」アプローチによる活用が進められています。

その手法の代表例はAI(機械学習、ディープラーニング)による「画像認識」「音声認識」「自然言語処理」などです。画像認識であれば「AIがあらかじめ学習した大量のデータパターンの中から、判定対象の画像の規則性を見つけ出す」、音声や自然言語処理、センサーデータでは「波形や文脈などの特徴から分類や区別、判断や予測を行うための規則性を抽出する」といった方法です。

ただし、AIに投入する以前に、大量に収集された非構造化データの中から分析に必要なデータをすばやく見つけ出すための各データの蓄積・更新の際に「タイトルや出所、ファイル形式などをメタデータとして一定のルールで付与する」といった、管理上の課題をクリアする必要があります。

非構造化データの「適切な管理」という課題

このように規則性がなく、構造化データへの変換が困難な非構造化データの活用に向けた技術が進化している一方で、大きな課題として残るのが「適切な管理」という点です。以下、非構造化データを正しく活用するために必要な管理上のポイントを解説します。

1|データの保管・運用管理

非構造化データは構造化データと異なりデータ容量が大きく、データ単体で用途が異なります。そのため「どのように分類・保管するのか」という運用ポリシー、社内ルールの策定や従業員への教育が欠かせません。物理的には収集・生成されたデータを保管しておくための大規模なストレージが必要で、データ量が増加するに伴い拡張が求められます。

2|データの検索・更新性の維持

非構造化データは構造化データと異なりデータベースで扱うことが難しいため、ファイルのボリュームが増えれば増えるほど検索・更新性を維持することが困難です。非構造化データは日々業務で活用されるデータ群のため、「どこにあるのか」「どのファイルが最新なのか」「どのファイルのどの部分を、誰が更新したのか」などを把握する仕組みが必要といえます。

3|セキュリティ対策とガバナンス

非構造データは構造化データとは異なり、従業員が誰でも自由にファイルを作成・保存・編集できます。加えて、非構造化データには「機密情報」や顧客などの「個人情報」が含まれるケースも多く、セキュリティ対策およびガバナンスに細心の注意を払う必要があります。

まとめ

いかがでしょうか。これまで企業のデータ活用は、SCM・ERP・CRMシステムの刷新など、構造化データを主軸としたITプロジェクトが主流でした。しかし近年では、社内に膨大に存在する非構造化データの活用が注目され、実現するための技術やソリューション、プラットフォームの提供もICTベンダーを中心に活発化しています。この活発化に比例して、前述の管理問題が企業の重要課題として浮き彫りになってきています。

トッパンは構造化・非構造化データに関わらずあらゆるデータをCDP(カスタマー・データ・プラットフォーム:顧客データを管理するプラットフォーム)で統合・管理し、AIを用いてマーケティング施策の精度を向上させるサービスを提供しています。さらに、企業のデータ利活用のために単なるツールの提供とプラットフォーム構築にとどまらず、目的に応じた導入から構築支援の各種コンサルティングや、デジタルマーケティングの人材リソースの提供などでも数多くの実績を誇ります。

非構造化データ活用についてご検討されている方は、ぜひお気軽にご相談ください。

2022.06.16

新着記事 LATEST ARTICLE
    人気記事 POPULAR ARTICLE
      関連サービス SERVICE