MarkLogic データと AI

データファブリックとデータメッシュ

投稿者: チャック・ホリス投稿日: 2022年3月16

データ業界にいる私の周りでは、最近「データファブリック」や「データメッシュ」という言葉をよく聞きます。ここで何が求められているのかははっきりしています。すべてのデータを何らかの方法で関連付け、役に立てることができないかということです。

データファブリックについては、ガートナーが正式に定義しています。そこには「なぜそれが必要なのか」（なぜデータをより有用な方法で結びつけたいのか）についてはいろいろと書かれていますが、実際の構築方法や利用方法に関するマニュアルは提供されていません。

私はたまにネットを検索して、これに関して誰がどんなことを言っているのかを見ています。この問題にさまざまな角度から取り組む、さまざまなスタートアップ企業があります。彼らに対する投資が増えているということは、関心が高まっているということなのでしょう。

まず最初に「もっと役立つようにデータを関係づけるのは良いことだ」という前提を確認しておきましょう。あとは、それを実現するためのベストな方法を見つけるだけです。人々は何十年も前からデータを関連付けようとしていますが、未だに満足のいく方法は見つかっていないようです。

私にはその理由がはっきりとわかっていますが、それについては後で説明します。

私たちMarkLogicには、コンプレックスデータを関係付けるうえで最も有用なのは「アクティブなメタデータ」だという明確な証拠があります。こう考えているのは、私たちだけではありません。MarkLogicはメタデータセントリックなデータベースであり、その点において他のあらゆるデータベースとは異っています。

ここでは「データ」と「それについて知っていることすべて」が一緒に保管されます。

データファブリックおよびデータメッシュの場合

こういった業界用語はさておき、何が起こっているのかをいったん理解しておきましょう。

ここには賢い人々が集まって、データを理解しようとしています。この際、知識をインフォーマルに共有することもできますが、これでは規模が大きくなったときに上手くいきません。このためある時点で、既知のことを体系的に扱いたい（再利用可能な組織的知識を作成したい）という強いモチベーションが生まれます。

メタデータセントリックなアプローチ（メタデータ管理、オントロジー、ナレッジグラフなど）は、そういった知識（ナレッジ）を体系的に扱うものです。

しかし、ここで使われる表象（表現方法）は、ナレッジを作り出したデータから切り離されていることが多く、結局は限られた用途でしか使えません。

この状況は、現実世界で例えると「荷物（パッケージ）に伝票（ラベル）が付いていない」あるいは「荷物に付いていた伝票が途中でなくなった」ようなものだと言えます。私たちが本当に望んでいるのは、「データ」および「それについて知っていることすべて」をバラバラにではなく、1つのエンティティとしてまとめておくことです。

データ管理者は、データ（物理的なパッケージ）についてはよく考えますが、「メタデータ（ラベル）」についてあるいは「メタデータを完全に活用するためには何が必要なのか」について、あまり考えません。

実際のところ、メタデータはデータに関する人間の知識を符号化（エンコーディング）したものであり、その役割は一般に考えられるよりもはるかに重要です。

人間の知識を符号化するには、セマンティックナレッジグラフ（SKG）が最適だと言われています。こういわれる理由はシンプルで、その基礎となる表現形式は必要ならば他のほとんどすべての形式（ルール、表、グラフなど）を表現できるほど強力だからです。

表現できない場合もありますが、どのような場合にうまく表現できないのかもわかっています。つまり、これが「自分たちが知っていることを表現する際のベストな方法である」と広く合意されているのです。

しかしここで、「どのように知っているのか」について知っていることも重要です。私たちの知識のほとんどはデータから得られているので、この2つを一緒にしておくことは理にかなっています。セマンティックなナレッジグラフは、それを作成したデータと結びついている方が、そうでないものよりもはるかに有用です。

現実世界で、パッケージとラベルが一緒になっている必要があるのは同じ理由です。

データアジリティが重要な理由

人間の知識は、理想的にはアジャイルなもの（新しい事実、新しい解釈、新しい行動など）です。その点では、組織的な知識も同じです。私たちは知的にアジャイルな人を「スマート」（賢い）と呼びますが、組織も同じでありたいと思うでしょう。

そのため、どのようなアプローチが提案された場合でも、私はまずはそういった基準から判断するようにしています。

「データアジリティ」とは、迅速に学習・適用する能力を支えるものであるため、まずこれが最初に取り上げられます。言い換えれば、私たちが欲しいのがデータアジリティでないとすれば、代わりに欲しいのはいったい何なのでしょうか。

メタデータセントリックなアプローチでは「アクティブなメタデータ」を実現できます。「アクティブなメタデータ」があれば物事の分類方法を後から変更できます。しかし、多くの場合、メタデータはデータと切り離されているため、それに基づいてアクションを起こすことは困難です。「データ」および「それについて知っていることすべて」の関連付けが必要なことには、ちゃんとした理由があります。

ここで忘れてはならないのは、意味（セマンティック）もすぐに変わってしまうということです。ある事象に対する私たちの見方が変わったことにより、これが「新しい」と感じられることもありえます。このようにアクティブセマンティックも極めて重要です。

私たちは「データアジリティを実現する唯一の方法は、アクティブデータ、アクティブメタデータ、アクティブミーニングを緊密に統合すること」だと主張しています。もしご興味があるようであれば、魅力的な事例もたくさんご紹介できます。

統合セントリックなアプローチではさまざまなものを組み合わせますが（クラウド上などで）、データアジリティが実現できないために、プロジェクト自体が失敗してしまいます。こういった失敗事例も私たちは数多く知っています。これが別の意味で興味深いのは、これによりメタデータセントリックなアプローチの重要性がより明らかになるからです。

（組織的な）関連付け

しかし「データ」および「それについて知っていることすべて」を関係付けることだけが重要だというわけでもありません。

MarkLogicの新規のお客様は、昔からよくあるパターンに当てはまることが多いです。つまり一方には、深刻な問題に関してもっと良い答えを一生懸命探しているビジネスパーソンたちがいます。彼らは「データの消費者」と呼べるでしょう。

片や「データの生産者」と呼ばれる、組織内の他の場所で捕捉されたファクトやイベントを形にするチームがいます。

彼らの間に「ロジック提供者」がいます。彼らはもっとアプリケーションセントリックであり、利用できるデータとビジネスニーズのギャップを埋めようとします。

これらの人々はみなコンプレックスデータの問題を長いこと解決しようとしていますが、あまりうまくいっていないので、多少なりとも不満を感じています。

ここで私たちが提案するのは、これらの3つの主要ステークホルダーのニーズ（あるいはそれ以外のニーズ）を満たせるプラットフォームです。これにより課題である「データアジリティ」に皆がもっと素早く対応できるようになります。

つまりここでは、MarkLogicがこういったものを関係付けます。私たちは、これを「再利用可能な組織ナレッジおよびそれを生み出したデータ」の問題として捉え直そうとしています。これら3つのグループのうち、2つは通常このコンセプトを理解できますが、1つのグループは理解できないことが多いです。このためデータスチュワードには、「データ（とそれについて知っていること）をより使いやすく、利用しやすい形にし、目の前の問題にうまく対処すること」と説明した方がよく理解してもらえるかもしれません。

これに関係する人としては他に、セキュリティ担当者、ガバナンス担当者、コンプライアンス担当者、監査担当者、技術ポートフォリオ担当者、インフラ担当者などがいます。これ以外にも今私が思い出せない人もいるでしょう。私たちはこれまでにこういった人々と話し合ってきているので、彼らが何を心配しているのか知っています。

ファブリックやメッシュはかっこいいパターンだが…

私はITアーキテクチャの愛好家として、分散、カプセル化、スケーラブルなアプリケーションアーキテクチャが大好きです。私は「モダンな開発手法」と「クラウドネイティブの世界」が出逢う世界で生きてきたので、それらのメリットを理解できます。

と同時に「組織で共有されている知識をわざとバラバラにしたあとで、再び組み立てようとすること」には大きな問題があるとも考えています。そう考えるのは、私だけではありません。

ここではまず、SKG（つまりコアとなるデータ構造）および説明の対象となるデータから始めます。それからパターンをカプセル化して適用します。その逆ではありません。

このようにデータとメタデータを一緒に管理してみると「データのアジリティ」と「アプリケーションライフサイクルのアジリティ」の両方において、非常に大きなメリットが得られることを実感できると思います。

それではどのようなパターンがあるのか

データファブリック、データメッシュなどへの関心が高まっています。明らかに、人々はより良い答えを求め始めています。私としては、より良い答えが必要であることは明らかなので、これは良い傾向だと思います。

私は、現状では業界における議論がバラバラだと思います。

ナレッジグラフでは、セマンティック機能への関心が高まっています。きちんと定義されたメタデータ管理の世界では、セマンティックなアプローチがますます好まれるようになっています。データベースの世界では、メタデータへの関心が増えているように見えますが、未だにメタデータで何か面白いことをする方法を見つけられていないのが現状です。

こういったことが、私が「もっとの３乗」（つまりもっと「多いデータ」、もっと「複雑」、役に立つインサイトへのもっと「強いニーズ」）と呼ぶものの背景となっています。このため、この方向性に私たちが今後進んでいくためのインセンティブは十分にあると思います。

私が考えるに、メタデータセントリックなアプローチをとれば、コンプレックスデータ問題において大きな成果を得ることができます。情報の扱い方が違うので、必然的に結果も違ってきます。

ここで、アインシュタインの「（狂気とは）同じことを何度も繰り返しながら違う結果を望むことだ」という言葉が思い出されます。