多構造化データは、ライフサイエンスにおける重要なビジネス課題の解決に役立つ新しい知見をもたらすため、大きな期待が寄せられています。しかしこの期待を現実のものとするには、データ戦略としてペタバイト級の臨床/規制/リアルワールドデータを結びつけることで、臨床の問題を解決する必要があります。ここでメタデータが必要となります。
メタデータとは何か
メタデータとは単なる「データに関するデータ」です。これは情報リソースについて記述し、説明し、場所を示すことで、その発見を楽にするようなデータです。これには、構造に関するもの(「どこに含まれているのか」)、説明的なもの(「このドキュメントの著者はだれか」)、管理に関するもの(「ファイルのタイプは何か」)があります。メタデータは、データをハーモナイズし、リンクし、コンテキストを提供する接着剤のようなものです。昔ながらの図書館カード目録(デューイ十進分類法に基づく)を使って本を探したことがある人は、実はメタデータを使っていたことになります(デジタルではないメタデータですが)。
メタデータの利点
ライフサイエンス企業では、データ戦略においてメタデータ管理を優先した場合、3つの大きなアドバンテージが得られます。
- メタデータにより、既存のコンテンツやリソースを再利用できます。ライフサイエンス企業では、大量のコンテンツを管理しています。定期的な安全性報告書や科学研究、また臨床検査プロトコルや規制コンプライアンス書類など、さまざまな種類のコンテンツがあります。メタデータは、主要アセットの属性プロファイリングを促進します。これにより、例えば過去に臨床検査で使ったインフォームドコンセントの文言を再利用できます。特にリアルワールドエビデンスのレポジトリを拡大しているライフサイエンス企業では、リアルワールドデータを簡単にプロファイリングし、製品ライフサイクルにおいて最もインパクトが大きいタイミングで再利用できます。
- メタデータにより、さまざまな業務部門からのデータ抽出がシンプルになります。メタデータにより主要属性(著者/日付/ファイルタイプなど)をカタログ化することで、現在のタスクに関係する属性に基づいてアセットを検索・抽出できます。例えば、ライフサイエンス企業における主要な規制課題の1つとして、医薬品の特定があります(IDMP)。ここで、正確な報告書を作成するためには国際標準化機構(ISO)の4つのドメインに対して、製品IDをハーモナイズ(対応付け)する必要があります。メタデータを使うことで、複数のソースシステムに散在する関連データを抽出してISOドメインに準拠させる作業が楽になります。
- メタデータを使って、異なるタイプの大量のコンテンツのトラッキングを強化できます。あるコンテンツの主要属性(提出日など)を知っていれば、コンテンツ自体がなくてもその動きをトラッキングできます。ライフサイエンス企業は、リアルタイムのステータスアップデートが必要な複雑な処理を定期的に実行しています(規制承認提出書類のチェック/複数部門による報告のドラフト作成/臨床検査手続きのモニタリングなど)。トラッキングをリアルタイムアラートと組み合わせることでワークフローを合理化でき、長期にわたる不必要なリソースの浪費を削減できます。
検索やセマンティックがないとメタデータの活用は困難
メタデータの価値を最大化するデータ戦略とは、専門的な言葉を使わないで説明すると、「探しているものを簡単に見つけられるようにする」ということにつきます。一方、専門的な言葉で説明すると、最初にデータをシャーディングしなくても、強力な検索インデックスを使って複雑なクエリを実行できるということです。これらのインデックスにより、格納されたデータとメタデータの両方を対象とする検索エンジン機能がデータ戦略にもたらされます。
例えば、ある特定の薬に関して「患者アドヒアランス」(ちゃんと服薬しているかどうか)を研究する際に、リアルワールドエビデンスを抽出する必要があるとします。さまざまなソースシステムにあるデータやメタデータを検索することで、服薬しない主な原因を抽出できます。また、「特定の患者グループにおいて、他よりも強い副作用が見られるのかどうか」「治療プロトコルを、『1日1錠から2錠へ』あるいは『注射から服薬』へ変えることは可能なのか」「特定のヘルスプランにおいて、この医薬品の費用分担は大き過ぎるのか」といった問いを扱うことができます。
さらに、自分の探していたものを発見できるだけでなく、点と点を楽に結びつけられるといいでしょう。これは専門用語では、「セマンティック」と呼ばれます。セマンティックデータ(「トリプル」)とは、関連するエンティティ(人/場所/モノ)をリンクして関係性を表現したものです。データ戦略を確実なものにするには、トリプルをネイティブに格納して、データおよびメタデータに関する価値あるコンテキストを提供できる必要があります。セマンティックトリプルを活用することで、創薬をはじめとする主要な業務プロセスにおいて、探索/分類/分析などを促進できます。
まとめると、ライフサイエンス企業は、「データ戦略の立案時にメタデータ管理を優先すべき」だということです。結局のところ、大量のナレッジが含まれている古くからの図書館カード目録も、デューイ十進分類法がなければ活用は困難なのですから。
Nick Diamond
ニックは、MarkLogicのヘルスケアおよびライフサイエンスビジネスの市場戦略とメッセージングを担当しています。MarkLogic入社前は、MITREおよびブーズ・アレン・ハミルトンでそれぞれアドバイザリーおよびコンサルティング業務に従事し、米国保健福祉省による医療保険制度改革(オバマケア)に関する政策および運用の課題解決を支援しました。
ニックは、ヘルスケア分野全体に関して深い専門知識を持っており、特に健康法、生命倫理、公衆衛生が専門です。彼の著作は、ローレビュー、有力な査読付きジャーナル、人気のあるメディアに掲載されています。大学で医療倫理を教え、医学部と公衆衛生学部の両方で講義を行い、公衆衛生法の専門家としてMSNBCに何度も出演しました。
ニックは、学部生としてジョージタウン大学で哲学と神学を、チャールストン法科大学院で法律を、ペンシルベニア大学で生命倫理学を学びました。現在、ジョージタウン大学ローセンターで国際保健法の修士号(LL.M.)を取得予定で、『Food and Drug Law Journal』の記事編集者および記事査読委員会のメンバーも務めています。