メタデータレポジトリでMDMを成功させる

6月 22, 2021 データと AI, MarkLogic
銀行の各業務には、それぞれの分野の「マスター(匠・主人)」が存在し、自分たちのデータを支配しています。「マスター」データ管理(MDM)では、これらの「マスター」たちをまとめる必要がありますが(2つの「マスター」がややこしいですが)、そのような分断解消を妨げる強力な壁が存在します。 これらの情報を結びつけてMDMプロジェクトを成功させるには、「メタデータレポジトリ」が鍵となります。

マスターデータ管理の主要目的は、統合された唯一の「真実」を提供することです。こうすることで、有効ではない/一貫性のない重複するデータが使われないようにします。統合された唯一の「真実」がないと、以下のような問題が発生します。

  • 探しているデータを発見できない。
  • マーケティング部門からのメッセージに対して、電話やメールをしてこないよう顧客がお願いしているのに、この依頼が銀行内で共有されないため不動産ローン部門が案内を送ってしまった。これにより顧客が怒ってしまった。あるいは顧客を失ってしまった。
  • データがサイロに分断され重複しており、同一の問い合わせに対する複数システムからの答えがバラバラである。このため規制対応などで問題が発生する。
  • データサイロ(Excelスプレッドシートのコピーを含む)が分断・重複しているため、安全なデータ活用や、使用状況のトラッキングはほぼ不可能。機密情報の漏洩の可能性も高い。
  • サイロ間のデータ移動に不可欠なデータ変換において、間違いが発生しやすい。また異なるデータソースに格納されているデータが同じものかどうかを確認するのも難しい。

MDMプロジェクトは、大規模かつ高予算のことが多いです。実装に数年、数億円かかりますが、失敗に終わることがほとんどです。これはCIOにとっては望ましくなく、この結果クビになる人も多いです。さらに悪いことに、ほとんどのMDMプロジェクトはウォーターフォール手法で行われるため、ほぼすべての作業が終わらないと何の成果も得られません。このためMDMプロジェクトが失敗すると、ほとんどすべての作業が無駄になってしまうことが多いです。プロジェクトが途中で放棄された場合、そこまでの成果として使えそうなものは何も残らない可能性があるのです。

従来よりも優れたMDMアプローチがあらゆる業界で必要とされていますが、特に不動産ローン業界ではその要望が強くなっています。

MDMプロジェクトが失敗する理由

マスターデータ管理における一般的な処理には以下があります。ソースのアイデンティティの特定、データの収集、データの変換、正規化、ルール管理、エラー検知および修正、データの統合、データの格納、データの提供、データの分類、タクソノミーサービス、アイテムマスターの作成、スキーマのマッピング、製品のコード化、データのエンリッチメント、データのガバナンス。

MDMの対象範囲はかなり広いため、タスクが大量になりなかなか上手くいきません。

さらにMDMプロジェクトが難しい根本的な理由として、複数の業務部門からのデータを扱うということがあります。ほとんどの業務部門は自らのデータやプロセスに満足しており、外部の目標のために自分たちの限られたリソースを提供したいとは考えません。業務部門の責任者は、MDMプロジェクトは「他の人たちにとってメリットがある」と思っても、自分たちの業務の邪魔になると考えます。さらに悪いことに、各データオーナーはMDMプロジェクトによって、自分のデータが他人のものになってしまうことを恐れます。上層部が決めた規則によってデータが管理されてしまうからです。

こういったことを考慮すると、そもそもMDMプロジェクトが成功するはずがない気もしてきます。

MDM成功の確率を上げるには

MDMは本質的に難しいものですが、メタデータやドキュメントレポジトリで唯一の「真実」を作成すれば、すぐにメリットが得られ、それ以降の取り組みが楽になります。 MarkLogicに基づくメタデータレポジトリを使うと、作業が最小化され、成功の確率が大幅に向上します。また段階的に改善できます。「何らか」の成果が出るために長時間かかるということが、ほとんどのMDMプロジェクトが失敗する原因の1つでした。

ここで重要なのは、「不動産ローンメタデータ」や「ドキュメントレポジトリ」にはそれ自身だけでもメリットがあるということです。ブログ「不動産ローン業界を前進させるには」では、こういったレポジトリによってローン提供コスト、顧客満足度、証券化などが改善された例を詳細に紹介しています。

ユニバーサルレポジトリを使ったMDMにおいて重要なのは、サイロ化された情報がレポジトリによって一か所に統合され、一元的にアクセスできるということです。 このメカニズムについては、ブログ「不動産ローン用ユニバーサルレポジトリの構築」をご覧ください。

データを一元的に表示できるので、MDMの主要目的の1つである「データへの容易かつ正確なアクセス」がすぐに実現されます。またこれは、エラー検知、データ分類、エンリッチ、ガバナンスといったMDM関連作業を強力にサポートします。 すべてのデータを一か所で把握でき、各データ項目を容易に比較できるので、他の手法よりも作業量が圧倒的に減ります。

多くのMDMプロジェクトでは、プロジェクトが完了しないかぎりこのような一元化されたビューを提供できません。その大きな理由として、それぞれのデータソースのスキーマが異なっているにも関わらず、リレーショナルに基づくMDM(つまりほとんどのMDM)は多様なデータソースの統合が苦手だということがあります。

通常、リレーショナルに基づくMDMでは、プロジェクトの初期段階で対象データソースのモデリングを行い、すべてのデータソースを適合させるべき1つのデータモデルを作成します。しかしサイロ内のデータを変換してこの標準的データモデルに準拠させるには、大量のETLが必要です。また、この作業に時間がかかっている間に、世の中の状況もメインシステムのデータスキーマも当然のことながら変わっていきます。そしてこれらの変更のたびに、その分析と対応作業が必要となります。

こういったモデリングやETLを大量に行わない限り、一元化されたレポジトリは実現されず、このプロジェクトのメリットも享受できません。一方、MarkLogicに基づくレポジトリの場合、話は全然違ってきます。モデリングやETLをしなくてもデータの読み込みやアクセスが可能なため、データの分類やエラー検知といったMDM関連業務が大幅に単純化され、スピードアップします。データのモデリングは段階的に行うことができ、優先順位が高いモデリングを最初に行えます。これはリレーショナルでは必須のウォーターフォールモデルとは異なります。

重複検知、製品/顧客の名寄せ、優先ソース規則、マージ、住所確定といったデータ関連ニーズは、ユニバーサルレポジトリがあれば大幅に楽になります。以下のような例があります。

  • データの重複処理は、データをまとめるメタデータレポジトリがあった方が全然楽です。
  • ある個人の住所が複数あった場合、MarkLogicのセマンティックを使うと、異なった複数の住所を格納できるだけでなく、リンクやルールを提供してこれらから「ゴールデンレコード」を作成することもできます。またセマンティックトリプルおよびバイテンポラルによって、データのリネージや出自の詳細だけでなく、ドキュメント間の関係性も把握できます。

この場合、MDMプロジェクトの開始直後からこれらの機能を活用でき、プロジェクトの完了を待つ必要はありません。このように、ユニバーサルメタデータレポジトリを使ったMDMプロジェクトは、従来よりもかなり効果的なものとなります。

デイヴィッド・カーレット

デイヴィッド・カーレットは、大手投資銀行、ミューチュアルファンド、オンライン仲買業で、技術職および営業職として15年以上働いてきました。

クライアントによる、ハイパフォーマンスの最先端のデータベースシステムの設計や構築を支援しました。また、パフォーマンス、最適なスキーマ設計、セキュリティ、フェイルオーバー、メッセージング、マスターデータ管理などの問題について助言を提供しました。