私は圧倒的なテクノロジートレンドのファンですが、皆さんはいかがでしょうか。こういったトレンドのおかげで、物事を合理的なコンテキストで把握できるるようになると思いますし、少なくとも私の場合、何が重要なのか/重要でないのかの判断に役立っています。
ここではまず、大きなトレンドである「コンピュータを使った人間活動の自動化および改善」について取り上げてみます。1960年代半ば以降、「数学・ミーツ・データ」に関して計り知れないほどのニーズがありました。
データベース、ERP、統合クラウドスイート、データウェアハウス、IoT、分析(アナリティクス)、そして現在のデータレイクや機械学習など、人間活動の自動化および調整を目的とした「多くのデータと多くの数学の出逢い」があります。
世の中全体ではこれに年間何十兆ドルも使われているようですが、人々はこれをさらに求めているようです(できればクラウドで)。当然のことながら、データが増えれば、必要な数学もそれだけ増えます。
しかし、この分野への投資には限界が来ているようです。この限界は最初は数か所に、そして今や数多くの場所に広がっています。これまでこれにかなりの投資をしてきた人々は、ROIが低下しているのを目撃しています。これはあたかも枯渇するまで油田を使い切ったかのようです。そしてこの問題の解決策は油田の掘削個所を増やすことではないでしょう。
この原因は「知識(ナレッジ)の壁にぶつかっているため」にあると私は考えています。
「データ・ミーツ・数学」の限界
私はこれまでずっとアナリティクス(分析)業界にいたこともあり、数学とデータの力に簡単に魅了されてしまいます。例えば、あらゆるものがセンサーになり得ますし、その結果、利用できるデータは無限に増え、数学はさらに強力で魅力的なものになります。
とはいえ、データや数学が、現実世界の何を意味するのかわからないことも多いです。私たちは、データをソースから取得した後、それを処理し、さらに再処理しています。この過程の中で、もともとあったリッチなコンテキストがなくなってしまいます。
例えばバイナリのデータを永続化する(格納する)と、その意味がわからなくなることが多いです。つまり「このデータについて知っていたこと」「それが私たちにとってどんな意味があるのか」についての情報が失われてしまうのです。
こうなるといつの間にかデータセットは「ミステリアス」なものになります。つまり「これはどこから来たのか」「それが何を意味するのか」が不明になるのです。このため、よくわからない「ダークデータ」を取り込み、AIのクラスタリング技術で意味を推論する専門家が存在しているくらいです。しかしこういったやり方でデータを理解するのは、なかなか大変です。
これは「コンテキスト共有」問題と呼ぶことができます。つまり、何事にも意味の解釈には人間の知識が必要だということです。
人間が持つこういった知識を継続的に取得し、育成し、応用できなければ、データと数学への投資は現実世界のコンテキストを徐々に失い、壁にぶつかってしまいます。
さまざまな観点(データの種類、人、高度化など)において投資が拡大するにつれ、「知識共有問題」も同様に拡大するようです。これに対処する場合、「研究ノート」的なものでは限界があります。そのような知識(ナレッジ)は、体系的に整理されておらず、再利用も検証もできないからです。
このため、もしあなたのチームが、データの意味について多くの時間を費やして議論している場合、こういった問題が潜んでいる可能性があります。同じエビデンス(証拠)を評価する際に、共有され合意されたものではない、お互いに異なるコンテキストに基づいているのです。
賢い人材、優れたツール、追加のデータソースなどには、確かにもっとお金を遣っていく方がよいでしょう。これらはどれも役に立つものなのですから。しかし、アナリティクスによるインサイトが現場のリアルな知識と関連付けられないかぎり(つまりセマンティックナレッジグラフおよび関連するデータを使用しないかぎり)、こうした投資の利益率は低いままでしょう。
私はなぜこんな話をしているのでしょうか。これは「数学・ミーツ・データ」において、対応するコンテキスト(=組織内で共有される知識)作成のための投資がなされていないという、非常に深刻なパターンを私は知っているからです。
そう遠からず、どの場面において多くの人々が不幸になるのかが私にはわかります。
はっきり言って、この問題は規模が大きくならないと現れてきません。小さな規模であれば、インフォーマルな知識共有ネットワークでも十分でしょう。しかし規模が大きくなると、そういったやり方ではうまくいかず、深刻な問題が発生します。
具体的に言うと「分析結果を社内で信用してもらえない」ということが起こります。
これは当然のことです。というのも、アナリティクスのインサイトに関して、対象データを読み込んでからどのように処理してきたのかを証明できなければ、信頼してもらうことは難しく、重要な分析結果も活用されないからです。
セマンティックナレッジグラフの価値
簡単に言えば、セマンティックナレッジグラフは「あるトピックについて知っているすべて」および「その意味」を体系化したものです。これは、DNAが新しい組織・器官の生成方法を「知っている」のにかなり似ています。理想的には、これはアクティブな学習し続けるエンティティであるべきです。つまり既知のものすべてだけでなく、今後さまざまな場所で使用される予定のもの(根拠となるアナリティクスなど)も反映させたものであるべきです。
セマンティックナレッジグラフの構築には、解釈対象のデータ、意味の取得・解釈用のツール、そして両者を関係付けるアクティブなメタデータの3つが必要です。
これら3つはすべて、完全に「アクティブ」かつ「コネクティッド(繋がっている)」であるべきです。これら三者間の関係性が切れると、現実との関係性も失われます。
これは、例えば「パッケージにラベルが付いている」ものを考えるとわかりやすいかもしれません。つまり、読み込んだデータと「そのデータについて知っていることすべて」および「これを使う理由」を一緒に保管するのです。メタデータ層はエンコーディング(コード化/整理)を提供し、セマンティック層は意味を提供します。
このグラフは3つの場面において重要です。つまり「新しいデータの意味を解釈する」とき、「グラフ自体をエンリッチする」とき、そして究極的には「情報に基づいた検索/コンテキストを活用したアプリケーション/根拠に基づくアナリティクス」においてです。
これにより分析の位置付けが大幅に改善されるだけでなく、急速に変化・進化する現実を共有する基盤を組織全体に与えることができます。
再び大規模分析基盤について
理想的には、分析は他のみんなと共通のナレッジグラフに基づいて行われるべきですが、そうなっていない場合もあるでしょう。大規模な分析チームの多くがこの問題を認識しており、自社内でこれを実現させようとしています。
しかし、このような分析中心の取り組みは、残念ながら2つの罠にはまるようです。第一に、そもそも分析部門はその誕生の経緯からして、社内の現場の現実を共有することが困難です。ナレッジグラフには間違いなくかなりの時間と手間がかかるため、既存のナレッジグラフを利用する(新しいナレッジグラフを作成するのではなく)ほうが望ましいでしょう。
2つめの罠はもう少しややこしいです。分析チームが共有ナレッジ用のレポジトリをさまざま作成したとしても、(a)これらはソースデータから分断されていることが多く、また(b)共有、再利用、検証可能な方法で構成されていません。つまりこれらのナレッジは、整理されておらず、拡張可能でもありません。
ここにはパターンがある
よくよく考えてみると、このような状況は大規模な分析基盤に限ったことではありません。実際、非常に賢い人々がチームを組んで、大量の本質的に複雑なデータ(コンプレックスデータ)を解釈しようとする例はたくさんあります。インテリジェンス(情報機関)、金融、生化学、物理学など、さまざまな分野で見られるでしょう。
いつごろからか、データそのものよりも、自分たちが「何を知っているのか」また「それをどのようにしてそれを知ったのか」を形式化することの方が重要であることが認識されるようになっています。そうすることで、人間の思考力や推理力をより効果的に拡張できるからです。
数学やデータだけで得られるものには限界があるということなのです。
チャック・ホリス
2021年に、ポートフォリオマネジメント担当SVPとして、オラクルからMarkLogicに入社しました。オラクル以前は、VMwareで仮想ストレージに取り組んでいました。VMware以前は、EMCで約20年間、さまざまな分野、製品、アライアンスのリーダーを担当していました。
チャックは妻と3匹の犬と一緒に、フロリダ州ベロビーチに住んでいます。彼はIT業界を形成するような大きなアイデアを議論することを好んでいます。