データマネージメント (2)
前回(データマネージメント (1))に引き続きデータマネージメントの話です。
6 データ統合と相互運用性
複数のデータソース(外部システムを含む)からきたデータを、組織・アプリケーション横断で共有して使うために必要な、各種プロセスのことです。「データの統合」とは、複数の異なったデータソースから異なった形式でやってくるデータを一貫した形式に統一することを意味します。「相互運用性」とは、統一されたデータを各種アプリケーションで共通的に使うための方法を意味します。
データの統合
様々なデータソースからやってきたデータは、当然異なるデータ形式でやってきます。データを利用する度に、一々データ形式の違いを確認し整合を取る流作業をしていると作業が膨大になってしまいますし、非効率です。あらかじめ標準データ形式を定めておき、データを取り込む際にこの形式に変換・加工して取り込み、これを利用するというのが一般的なやり方です。
この処理は、抽出(Extract)・変換(Transform)・取込(Load)からなるETL処理と呼ばれます。ETLを行うソフトウェア製品も多数ありますので、データが多種で複雑になってくると、このような製品を利用することになります。また、標準データ形式は、前の章で説明したデータモデリングとデザインの結果として定められるべきものです。
相互運用
取り込んだデータを利用するための仕組みには、大きく分けて「データHUB型」「データストリーミング型」の2種類があります。
一般的によく使われるのは、データを中央のHUBに集約する「データHUB型」のアーキテクチャです。全ての組織・アプリケーションはこのデータHUBにのみアクセスすることにより、統合的な運用が可能になります。リレーショナルデータベースをはじめとしたデータベースソフトウェアを使って実現します。
HUB型のアーキテクチャは高いレイテンシ(遅延)が許容されるシステムでは有効ですが、ある程度のリアルタイム性が必要なものには適しません。リアルタイム性が必要なものには、非同期なイベントあるいはメッセージ駆動のデータストリーミング型アーキテクチャが用いられます。データソースで発生したデータは、ETL処理が行われた後、あらかじめ登録されたアプリケーションにメッセージなどの形で通知される仕組みです。アーキテクチャエンタープライズアプリケーション統合(EAI = Enterprise Application Integration)、エンタープライズサービスバス(ESB = Enterprise Service Bus)、複合イベント処理(CEP = Complex Event Processing)などがあり、市販製品、プラットフォームなど利用できるものも多数あります。
7 ドキュメントとコンテンツ管理
データベースには保存されない、非構造化データについても適切に管理する必要があります。非構造化データをもつコンテンツとしては、提案書や見積書、契約書、デザインデータ、プレゼンテーションやエクセル、ワード、画像、動画形式のデータ(ファイル)などがあります。
構造化されていないコンテンツを効果的・効率的に利用できるようにするための重要な概念として以下があげられます。
コンテンツメタデータによる整理・分類・構造化
コンテンツを効果的に利用するには、整理・分類・構造化し管理しておくことが必要です。このためにコンテンツの内容を示す「コンテンツメタデータ」が不可欠です。メタデータには、例えば、コンテンツのフォーマット、作成日時、コンテンツのテーマ、検索のためのキーワードなどが含まれます。
統制語彙
コンテンツを閲覧、検索する際に、索引付け、分類、タグ付、ソート、検索に使用される、一意に定義された用語のリストのことです。例えば、コンテンツメタデータに記載されるテーマやキーワードなどには、統制語彙として定められた用語を使います。統制語彙を維持するために継続的な管理が必要です。
レコード(記録)管理
組織が規制、法務、およびビジネスクリティカルな要件のために、エビデンスとなる記録を管理すること。作成、伝達/処理、保管、保存廃棄など記録のライフサイクル全体を管理する必要があります。
8 参照データとマスターデータ
システムで扱うデータは、トランザクションデータとマスターデータに分けられます。さらにマスターデータの中には参照データが含まれます。
トランザクションデータ
業務に伴って発生した出来事の詳細を記録したデータ。日々、追加・更新が発生する
マスターデータ
業務活動に関連する共通概念を抽象的に表現することにより、その活動に意味を与えるデータ。例えば、勘定科目表、顧客識別子、製品識別子、組織情報など
参照データ
マスターデータの中で、単にコードとそのコードが表す意味を持ったもの
マスターデータは、共通概念を表すデータなので一元的に管理されるべきであり、この管理をマスターデータマネージメント(MDM)と呼びます。
9 データウェアハウジングとビジネスインテリジェンス
データウェアハウス(DWH)は様々なソースからのデータを共通のデータモデルに統合し格納するためのものです。また、データレイクとの関係で語られることもありますが、データレイクが加工にしない生のデータを格納するものであるのに対し、データウェアハウスは、ETL処理を行い、分析ができる形に整形したデータを格納するものです。
ビジネスインテリジェンス(BI)はデータウェアハウスにあるデータを分析すること、及び分析するためのツールを指します。ビジネスインテリジェンスには、「データの可視化」「統計分析」「予測分析」「データマイニング」「機械学習」などが含まれます。数多くの市販BIツールが利用できますので、目的に合ったものを選択して使います。
図は、データレイク、データウェアハウス、ビジネスインテリジェンスを実現するシステムアーキテクチャの一例です。この他にも、色々なアーキテクチャが考えられ、例えばいわゆるビッグデータを分析する場合は、BIツールからデータレイクに直接アクセスすることもあります。また、データウェアハウスからさらに部門や領域ごとに関係するデータだけを抜き出した「データマート」を作り、BIツールでこちらにアクセスするなどの形態もあります。
10 メタデータ管理
メタデータとは「データに関するデータ」です。例えば図書館を例にとると、書籍や雑誌がデータにあたり、図書目録がメタデータに相当します。メタデータは、存在する大量のデータのうち目的のものを効率的に探し出すための重要な手段を提供するもので、大きく3種類に分けられます。
ビジネスメタデータ
主にデータの内容と状態に重点を置いたものです。
- データセット、テーブル及びカラムの定義と説明
- 業務ルール、変換ルール、計算方法、及び導出方法
- データが更新されるスケジュール
- データのセキュリティレベル
テクニカルメタデータ
データの技術的詳細、データを格納するシステムなどに関する情報を提供するものです。
- 物理データベーステーブルとカラムの名称
- カラムのプロパティ
- アクセス権
- データテーブル名、キー、インデックスなどの情報
オペレーショナルメタデータ
データの処置とアクセスの結果を表すものです。
- バッチプログラムのジョブ実行ログ
- データの抽出とその結果などの履歴
- 運用スケジュールの異常記録
これらの、メタデータをどこから収集するのか、どのように構造化して管理するのかが活動のポイントになります。
11 データ品質
「データ品質」は、データマネージメント知識体系の中でも一番重要度の高い事項です。データ品質とは、文字通りデータの品質です。データが高品質であるとは、「オペレーション、意思決定、計画などのビジネスに使用する目的に適っていること」を指します。
データ品質を評価するための評価軸として考えられているもののうち、主要なものは以下です。
正確性
データ値自体の誤り、意味的な誤り、誤字脱字、書式の誤りなどがないか
完全性
必要な項目が網羅されているか、データの項目に欠損がないか、必須項目に空欄が含まれていないか
一貫性
データ値がデータセット内やデータセット間で一貫して表現されているか(例:各項目の個別の値を集計した合計値と元々データに含まれていた合計値が一致しない、外部参照に間違いがある、異なる場所に保存されている同じデータセットが一致していないなど)
適時性
必要な時にいつでもすぐに利用できるか、できる限り新しい情報に更新されているか
一意性
全てのデータセットにおいて、重複や冗長な情報がないこと(例:同じ意味のものを違う用語で表していることがないかなど)
元となるデータの品質が悪いと、そのデータを活用して得られた結果(意思決定や予測など)は信用できないものになてしまいます。データ品質の向上のためには、データを獲得、加工、蓄積、集計する全てのステップで品質保証を行う必要があります。品質保証のための活動は、製品の品質管理と同様、一過性のものではなく、継続的にPDCAを回しながら改善をしていくべきものです。
余談
マイナンバーカードの問題が最近よく話題に上がっています。「保険証情報との紐付けミス」「銀行口座情報との紐付けミス」「他人の年金記録情報が見えてしまう」などなど。
システムの不備の問題だとする向きもありますが、これには少し違和感を感じます。本当の原因はわかりませんが、私にはシステムの問題というよりもデータマネージメントの不足によるデータ品質の問題に思えます。そもそも全国民分のデータを間違いなく管理するというのは、そもそも非常に難しい話ですが、それができるだけのマネージメントになっていなかったということなのだろうなと思います。いずれにせよ、データをマネージメントするというのは重要で、労力を要することなのです。