MarkLogic データと AI

エンタープライズデータインフラの選択肢

choices-enterprise-data-infrastructure-blog-1600x745

投稿者: チャック・ホリス投稿日: 2021年8月3

公共政策に興味がある人であれば、インフラ（交通、通信など）があらゆる経済成長において重要なことはご存知でしょう。

適切なインフラに（かつ適切なタイミングで）投資することで、素晴らしい結果が得られます。しかし選択を誤った場合、通常は明らかに良くない結果となります。

組織がより多くのデータを収集し、情報を活用（意思決定における活用、関連付けられたデータの処理のリエンジニアリングなど）する際には、何らかのインフラが関わってきます。

私は何十年もの間、データを渇望するデータ利用者と、それに応えようとしながらもデータを提供できないITグループの間で小競り合いが起こるのを見てきました。

そのような「渇望」は容易に理解できます。また問題解決に必要なデータを彼らに与えても、彼らはさらに困難な問題の解決に必要なデータをすぐに求めてくることでしょう。つまりそのような「渇望」は決してなくなりませんし、なくなるべきでもありません。

IT部門はいつも大変な立場に置かれていますが、世の中を見てみると、他よりも上手くやっているIT部門もいます。ここでの概念的な目標は、「人とデータの間にこれまでよりも優れたデータインフラを構築すること」となります。

話を過度に単純化しないためにも、データインフラのさまざまな構築方法を確認しておきましょう。

データはここです。取りに来てください

woman carrying water on her head

最もシンプルなやり方は、レポートを実行し、本番データベースにデータを投げ込むことで、下流の許可された利用者が使えるようにしておく、というものです。これは、頭に水を載せて運ぶように依頼するようなものです。

これは求めている人にデータを与える方法としては決して効率的ではありませんが、のどが渇いている人に「水はここです」と言うことはできます。

効率性を考えただけでも、ここには明らかに改善の余地があります。どこにデータがあるのか、どのように入手されたのか、どのような構造なのかを、データ利用者は知らなければなりません。この場合、利用者がデータを他の場所に移動して整え、利用可能にする必要があります。

このやり方はすべて利用者任せなので、あまりよくありません。

貯水タンクを作ればよい？

もっと良い解決策を探すなかで、データマートやデータウェアハウスなどが生みだされました。この場合、IT部門が、利用者が使い易い場所にデータを定期的に移動させます。

これにより分析できるデータ量が増えるだけでなく、人々がIT部門に対して随時データを要求してくることがなくなります。

しかしデータ利用者は、データの形式、整理方法などは選べません。

water tank

水とインフラの例えに戻ると、IT部門が大きな貯水タンクを作成したいと考えているようなものです。これを作って、そこに何らかの水を定期的に運ぶのです。もちろんそれ以外の作業は、ユーザー側で行う必要があります。これは理想的ではありませんが、利用者が自分で水を運ぶよりもマシです。

当然のことながら、このやり方では、さまざまな特化型貯水タンク（それぞれが個別の目的用）がいくつも生みだされます。しかしこれによって、解決困難な問題がいくつか発生します。

まず第一に、これは効率的ではありません。大量のデータマートおよびウェアハウス、大量のテクノロジーが導入され、作業が大量に発生し、複雑になります。このため、シンプル化や標準化といった長期的な目標が阻害されます。

第二に、結果があまり良くない可能性があります。というのも、この結果として、組織のあちこちに複数の「source of truth（信頼できる情報源）」がバラバラに存在することになるからです。これによって、個々の状況（顧客、製品、健康など）に関して情報に基づく意思決定が困難になります。

現代的な水道を実現できるか

modern kitchen faucet

ここで必要なのは、これまでの例えで言うと「現代的な水道」のようなものです。水質が良く、温度調整可能でどこでも利用な水が、手元の蛇口をひねっただけで入手できるように、データを扱いたいのです。

よくよく考えると、この例えは興味深いです。利用者はこの水がどこから来たのか（川、貯水池、雨水など）を気にしなくても済みます。水質は定期的に検査され、さまざまな利用法を満たす水質で提供されます。

このため、何か特別なものが欲しい場合（赤ちゃんに蒸留水を飲ませたいなど）でも、必要な追加作業は最小限で済みます。公共の水道が嫌ならば、自分で井戸を掘ってポンプで汲み上げ、濾過することもできます。

このやり方の本当のメリットとはなんでしょうか。利用者は、水や喉の渇きを心配せずに生きていけるということです。しかしこれらすべてを実現するには、本格的なインフラが必要です。

データファブリック、データメッシュ、データパイプラインなど

この業界では、このインフラ指向アプローチに即して、より多くのそしてより質が高いデータを提供するためのさまざまな動きが登場しています。この際、利用しやすく意思決定を改善できるデータの提供が求められます。

この流れにおいて、「理想的なデータインフラ」としてはまず何が想定されるのでしょうか。

私が思うに、さまざまな場所に由来するあらゆる形式のデータを読み込み、処理し、価値を加えることができるものが、まず検討されるでしょう。

またこのデータは、読み込んだら、何らかの用途ですぐに利用できなければなりません。もちろんあとからデータを整えることはできますが、「あらゆる場所からのデータをそのまま」使用できる（何らかの形式を要求されない）ことは、とても魅力的です。

人々はいろいろな方法で、データを検索し整理したいものです。これは一人一人が自分のレンズを持っているようなものです。また「自分が必要なレンズを簡単に作れる」（自分が扱いたいようにデータを扱える）必要もあります。

その種類としては、馴染みのある行や列、ドキュメント、関係性を表すグラフ、地理情報、RDFトリプル、オントロジーなどがあります。繰り返しになりますが、理想的には、人々は自分が好きなさまざまな形式でデータを見たいのです。

全員がスプレッドシートを使いたいわけではありませんし、そもそも世の中の興味深い問題への答えは、スプレッドシートにはないでしょう。元々関係付けられることを想定していなかったデータのかけらを関係付けることから、本当に役立つものが得られることが多いのです。

つまり、これこそが本当のインフラです。これは拡張可能で、しっかりとしていて、修復可能で、安全で、監査可能である必要があります（他にも条件がありますが）。このシステムは、町の水道システムに障害が発生したら人々の日常生活に影響が出てしまうのと同様に、重要なものとなります。

楽しいデータインフラ

私の仕事で一番面白い部分はおそらく、モダンなデータインフラで人々が何をやっているのかを知ることです。

これはいつも同じパターンです。「複数のデータソースを素早くかつ効率的に関連付けることで、どのような新しくかつインパクトのあることがシンプルに実現されているのか」ということです。新しいクールなアプリケーションをたくさん利用することでもたらされる変化に、人々が熱狂しているのを見るのは楽しいものです。

これは現代的な水道が私たちにもたらしたものと同じだと言えるでしょう。

チャック・ホリス

2021年に、ポートフォリオマネジメント担当SVPとして、オラクルからMarkLogicに入社しました。オラクル以前は、VMwareで仮想ストレージに取り組んでいました。VMware以前は、EMCで約20年間、さまざまな分野、製品、アライアンスのリーダーを担当していました。

チャックは妻と3匹の犬と一緒に、フロリダ州ベロビーチに住んでいます。彼はIT業界を形成するような大きなアイデアを議論することを好んでいます。

著者が作成したブログ