ビッグデータ:その後

9月 29, 2021 データと AI, MarkLogic, Semaphore

エンタープライズITの世界では、流行の波が次々と起こります。その中には期待に応えられたものもありますし、多くの投資家をがっかりさせたものもあります。「ビッグデータ」はそういった流行の中でも巨大なものでした。他と比較にならないほどの投資と期待があった一方、多くの人にとっては他と比較にならないほどの失望がもたらされました。

私が興味深く思うのは、こういった多数の大規模投資にも関わらず、データをもっと理解したいという欲求は満たされなかったばかりでなく、さらに強まってしまったということです。

初期のビッグデータプロジェクトが上手くいったところでは、しっかりとしたデータレイクが作られ、専門家たちがリッチなツールでプロセスフローを構築できるようになっています。この場合、ビジネスバリューが得られていることは確かです(そうでなければこれらの事業への投資は終わっているはずです)。

しかし期待どおりにいかなかったプロジェクトはどうだったのでしょうか。そこから何か学ぶべきことはないのでしょうか。

乗り遅れてはいけなかった

ここであの熱狂的な「ビッグデータ」ブームを振り返ってみましょう。これは、オタク的な新しい方法でデータを扱って凄いことをしようとするもので、かなりの興奮に包まれていました。

いくつかのケースでは、「新しいインサイトにより意思決定の方法が新しくなった」という報告もあります。データに基づく結論には議論の余地がないためHIPPOが排除されることにより、新しい意思決定手段が導入されたのです(HIPPOは「Highest Paid Person’s Opinion:給料が一番高い人の意見」のことです)。これはコメディ映画『ナーズ(オタク)の復讐』を思い起こさせます。

ここでは「恐れ」と「欲」が強力なモチベーションとなっていました。FOMO(Fear Of Missing Out:取り残されることの恐怖)により、データを使った実験のために極めて大量の「ビッグデータ」環境が生みだされました。しかし、これらの多くは期待に応えられませんでした。なぜでしょうか。

私は以下のような理由があると考えています。

  • ビッグデータは簡単にできるものではありませんでした。環境の構築、データ専門家の採用、データの入手と読み込み、人々が何を求めているのかを理解する、といったことを行わなければなりませんでした。これはどんなIT部門にとっても難易度がかなり高く、専門チームがあっても困難でした。
  • またたとえこれを達成できても、新しい知見の価値は時間とともに減少していきました。つまり素晴らしい知見が2、3得られた後は、ビジネス部門が興味を持つものを提供できなかったのです。
  • 集められたデータからの知見は、ビジネス部門が求めているものではありませんでした。

つまり、ビッグデータの最初の壁を超えて成功がもたらされても、その後、成果が出ない期間が長く続いたため、人々の欲求不満が高まったということです。

私が思うに、これにははっきりとした理由があります。

分析 vs 関連付け

分析や機械学習はしばらく前から存在しています。これは「数学とデータの出逢い」と呼ぶことができるでしょう。一見したところ、ほとんどの数学は極めて単純に見えますし、そのかなりの部分は自動化することさえできます(「一番重要な変数を特定する」「最良の予測モデルを特定する」など)。

しかし数学に有効なデータを流し込むことは、それよりもかなり困難です。というのも大量の(かつシンプルな)クレンジング済みの整形されたデータセットが必要だからです。通常、こういったデータの提供がボトルネックとなります。

それでも十分な努力がなされたために、こういった問題を解決できたものもあります。それ以来、これまでに数年が経過しています。それでは、ビッグデータ、データウェアハウス、データレイク、データマートが実現された世の中において、まだ満足していないビジネスユーザーが大量にいるのはなぜなのでしょうか。IDCによると、この業界で2021年にビッグデータおよび分析に費やされるのは2500億ドルに上ります。これはかなりの金額です。

私が思うにこれは単純な話で、多くの場合、人々はソースが異なるデータ間の関係性を活用したいと強く願っているのに、これがなかなか実現されないということです。分析ではこれは実現できません。一方、関係性の活用が改善されれば、効率的なデータ活用のプロセス全体(分析を含む)がかなり楽になります。

簡単な例をいくつか挙げておきましょう。「これらのさまざまなシステムには、どのような顧客情報があるのか」「新しい知見を得るには、どのように顧客情報を関連付ければ良いのか」「新しいアプリケーションを構築すべきか」「分析や機械学習のためにもっと適切な情報を活用できるか」といったことを人々は知りたいのです。

ここで核となる概念は、「ビッグデータは、単純化されたデータから非直感的な関係性を発見しようとする」というものです。つまり「データ自身に語らせろ」ということです。しかし多くのビジネスユーザーが求めているのは、これとはだいぶ違っていて、「多数の複雑なデータ間における既知の関係性をさらに改善したい」ということなのです。

こういったパターンは、驚くべきほど多くの状況で見られます。バイオサイエンスでは、治療や病状に関して知っていることすべてを関係付けたいと思っています。保険では、素晴らしい商品を提供する一方、不正は最小化したいと考えます。金融サービスでは、複数の商品におけるすべての顧客データを活用したいと考えます。これ以外にもこういった例はたくさんあります。

これに関する私の意見は以下のようになります。分析、機械学習、ビッグデータ、データウェアハウス、データマート、データレイクそして優秀な人材への投資はすべて素晴らしいことです。しかし、これはある程度まではうまくいくでしょうが、その後はリターンが減少します。

つまり、シンプルなデータからも素晴らしいことを学べますが、複雑なデータからも学ぶべきなのです。そしてその際には考え方を変える必要があるということです。

チャック・ホリス

2021年に、ポートフォリオマネジメント担当SVPとして、オラクルからMarkLogicに入社しました。オラクル以前は、VMwareで仮想ストレージに取り組んでいました。VMware以前は、EMCで約20年間、さまざまな分野、製品、アライアンスのリーダーを担当していました。

チャックは妻と3匹の犬と一緒に、フロリダ州ベロビーチに住んでいます。彼はIT業界を形成するような大きなアイデアを議論することを好んでいます。