MarkLogic Semaphore データと AI

メタデータとは何か、なぜこれが注目されているのか

投稿者: チャック・ホリス投稿日: 2021年6月29

メタデータを理解する

MarkLogicでは、「情報に関する情報」であるメタデータについていつも話しています。私たちのカスタマーはこれを使って関連付けを行い、興味関心の対象に関する新しい知見を獲得しています。

とは言え、ミーティング中に誰かがメタデータについて話しはじめると、明らかに困惑している人がいるのも事実です。これはどういうことなのでしょうか。

私が思うに、「メタデータとは何か」「どのように使われるのか」「なぜこれが重要なのか」についてちゃんと説明されてないということではないでしょうか。「メタデータ」は新しい概念ではなく、いろいろな形を取りながら大分昔から存在しています。

メタデータは、興味関心の対象を発見しやすくするためのものです。

メタデータの好例としての図書館

ある年齢以上の人であれば、図書館でかなりの時間を過ごしたことでしょう。よく知らない人のために言っておくと、図書館とは、読書用の大きな部屋で、ほとんどの書籍がきちんと整理され、索引付け（インデックス付け）されています。

索引がなかったら図書館はかなり使いにくいでしょう。

また、デューイ十進分類法などに基づく「図書館カード目録（索引カード）」をご存知の方もいるかもしれません。

カード目録を入れてある引き出しは、収集されたメタデータの物理的な置き場所です。ここで書籍を、題名/テーマ/著者に基づいて探すことができます。これに書いてある番号を使うことで、本棚の間をさまよう時間を短縮できます。

つまり、興味関連の対象に素早くたどり着けます。しかしそれだけではありません。

メタデータのコレクション自体だけでも（つまり参照先の書籍自体がなかったとしても）、興味深いさまざまな問いに答えることができます。

「このテーマにおいて、最も執筆件数が多い著者は誰か」「この著者の執筆活動が最も盛んだったのは、いつ頃か」「この著者が、他のテーマに関して執筆している可能性はどのくらいあるのか」。こういった問いは、この本が実際にどこにあるかには全く関係ありません。

つまり、図書館カード目録のようなリッチで検索可能なメタデータには、当初の想定を大きく超える価値があるということです。

例の拡張

ここで、あなたが図書館カード目録の担当になったと仮定してみましょう。

このカード目録には、長年使われている標準的な形式があります。このやり方をあなたが変えたいと思うことはないでしょう。しかし1876年には存在していなかった「デジタルメディア」や「webサイト」などのあらゆるエンティティに索引（インデックス）を付け、カタログ化しなければならないとしたらどうでしょうか。

もし私が担当者だったら「書籍を整理するために作られた図書館のカタログシステムは、この完全にデジタル化された世の中において、その合理性を完全に失っているのではないか」という大きな懸念を抱くことでしょう。それでは現時点における、新しい使命/ミッションとは何なのでしょうか。

ここで、メタデータの利用者がインデックスを使ってさらに質問したいだけでなく、他のメタデータストアも対象に含めたうえで関係付けをしたいとします。

「誰が図書館を利用しているのか」「彼らは何に興味があるのか」「サービス改善に活用できる利用者情報は何か」

もしあなたが図書館の責任者であったなら、これらは極めて重要な問いです。

これに対する答えの多くは、図書館カード目録自体、またそれらの使用状況を測定することで得られます。

一方、図書館利用者に関する検索可能なメタデータも必要です。またこれを人口統計量や場所情報などと関係付けたくなるでしょう。

極めて異なるデータ（およびメタデータ）を検索、発見し、それらの関連付けをしたくなるのです。

実は、こういった作業は「モデル構築」なのです。自分が責任者である図書館に関してさまざまな意思決定をする際に、このようにして得られた情報を活用できます。

この例を取り上げた理由

誰もが、この情報（＝「生データ」）が強力なものとなりえることを知っています。これには、手つかずの広大な鉱脈のような大きな価値があります。しかしそれも活用できなければ意味がありません。

メタデータ（「情報に関する情報」）の重要性は、指数関数的に増加する可能性があります。これを、「物事の挙動を説明する論理モデルの構築」および「重要なさまざまな意志決定」に活用できるのです。

実は人間は、自分の体験を直感的にタグ付け、検索、関係付けています。これは私たちの「思考」および「推論」の一環です。現在、さまざまな組織は基本的にこれと同じことをソフトウェアでできるよう取り組んでいます。

ITビジネスリーダーたちの流行語（「デジタルトランスフォーメーション」「ナレッジセントリック組織」「次世代の業界モデル」「機械学習の普及」など）はすべて、リッチで検索可能なメタデータ層がなければ実現不可能です。

このため、モチベーションを表現する言葉がこのように違っていたとしても、結局のところ、「メタデータを極めて真剣に考えなければならない」ことは間違いないのです。

「良いことは簡単にはできない」あるいは「簡単にできることが必ず良いことではない」ということはみな知っているはずです。これにはかなりの作業が必要なことが、これまでに明らかになっています。

しかしながら、MarkLogicにはこれまで、主要業務における情報活用やビジネス促進に利用できる、リッチかつアクティブなメタデータ層を構築してきたという実績があります。

喜ばしいことに、現在、「メタデータ」「多くの人がメタデータを必要としている理由」「この旅の過程」「この旅におけるMarkLogicの位置付け」について共通認識が得られているのです。

チャック・ホリス

2021年に、ポートフォリオマネジメント担当SVPとして、オラクルからMarkLogicに入社しました。オラクル以前は、VMwareで仮想ストレージに取り組んでいました。VMware以前は、EMCで約20年間、さまざまな分野、製品、アライアンスのリーダーを担当していました。

チャックは妻と3匹の犬と一緒に、フロリダ州ベロビーチに住んでいます。彼はIT業界を形成するような大きなアイデアを議論することを好んでいます。

著者が作成したブログ