セマンティックとOptic APIによるマルチモデル検索

4月 09, 2021 データと AI, MarkLogic

研究者は利用可能な大量のコンテンツを持っていて、検索したら、そこに隠されたコンセプトや分類、表記の揺らぎなどが発見されることを望んでいます。これは自然な考え方です。というのも私たち人間は、世界は複雑な関係性やコンセプトによって支配されていること知っているからです。しかしながらコンピュータはかなり二進法(二者択一)的で、「レコード内にこのタームや語句が存在する/しない」だけを判断します。

それでは私たちが作るアプリケーションが人間みたいに情報を扱えるようにするにはどうしたらよいのでしょうか。実はこの問題は一見したよりも複雑な問題を孕んでいます。MarkLogicのOptic APIは、自分の周りの世界に関するセマンティックな情報を統合することで検索をよりスマートにします。

私たち開発者は、プロジェクトを進める際にある特定の視点から問題を捉えています。通常は、表形式、非構造化テキスト、分類システムからのデータを扱うことが多いでしょう。ここであらゆる問題を解決するのに、1つのデータ構造だけしか扱わないために、視野が狭くなることがあります。1つのデータ構造しか扱えないのは、使用しているテクノロジーに制約があるためです。しかしこれは、データの扱い方としてはベストでも自然でもないでしょう。

大規模なテキストでは、構造を活用できます。これはXMLやJSONとして表現されていることがあり、その場合メタデータやマークアップが含まれています。ファクトはセマンティック的なナレッジグラフとして、タクソノミーやオントロジーを表現できます。BIや分析ツールと統合している場合、表形式のデータが必要とされます。それでは、今後取り組みを始めるにあたって何から手を付けたらよいのでしょうか。市場には、データをよりネイティブな形で管理する専用製品がいくつかあります。こういった専用製品を複数組み合わせて使った場合、クエリの作成や結果の集計を行うためのアーキテクチャが複雑になります。

MarkLogicではさまざまな形態のデータを1つのサーバーで管理できるので、アーキテクチャの複雑さが軽減されます。さらに喜ばしいことに、Optic APIを使うと、1つのAPIだけであらゆる形態および規模のデータのクエリや結合が可能です。手作業で結果を繋ぎ合わせる必要はありません。

ここで具体的な例をご覧になりたいでしょうか。Optic APIによるマルチモデルデータの検索チュートリアル(英語)では、「データの読み込みやハーモナイズのためのMarkLogicデータハブの設定方法」および「Optic APIを使って価値ある情報を発見する方法」について細かくご紹介しています。ぜひご覧ください。

ドリュー・ワンチョウスキー

ドリュー・ワンチョウスキーは、北米のMarkLogicのプリンシパルソリューションエンジニアです。メディアおよびエンターテイメント、出版、研究の業界をリードするソリューションに取り組んできました。主な専門分野は、コンテンツ管理、メタデータ規格、検索アプリケーションです。