米国防総省は、最近発表されたデータ戦略、「Unleashing Data to Advance the National Defense Strategy(国防戦略を前進させるためにデータを解放する)」において、自らをデータセントリックな組織へ変換するというビジョンを詳細に記述しています。
私たちMarkLogicは、長い間データを扱ってきており、さまざまな業界(政府、金融、ヘルスケア、その他)で大規模なデジタルトランスフォーメーションおよびモダナイゼーションのプロジェクトをお手伝いしてきました。戦略的な原則を現実の結果へと変換できるよう、長年の経験を持つ弊社としてのコメントや推奨を共有してきています。
本ブログは、米国防総省におけるデータ戦略の主要コンセプトを取り上げるシリーズの第1回です。今回は、国防総省のすべてのデータ関連活動の基礎となる 「8つの指針原則」への準拠において、データプラットフォームの機能が重要であることをご紹介します。
データは戦略的アセット
データはセキュリティ、リネージ(経緯)、入力データの出自、データの質に注意しながら、宝物のように扱うべきです。ベストプラクティスは、データを「そのまま(as is)」で記録することです。またリネージを保持することで、データを何らかの任務や目的で利用した際に何が起こったのかを理解できます。
データは、オンデマンドで統合し、任務の優先順位に基づいてデータストアに格納し、読み込み時にタグ付けし、出自確認用に元の状態をカタログ化し、リネージをトラッキングする必要があります。またデータを、エンタープライズレベルのセキュリティおよび管理ガバナンスのもとで、即座に任務で活用できることが重要です。
集団的なデータスチュワードシップ
データライフサイクル全体において、アカウンタビリティはどう担保されるのでしょうか。データスチュワード、データ保管担当者、マネジメント担当者は、データのガバナンスおよび品質を促進・維持するために、データポリシーを保護・普及・実施しなければなりません。またセキュリティ実装時には、「ロールベースのデータ制御」を導入しなければなりません。厳密なACID準拠のデータプラットフォームも、確実なデータの信頼性において重要です。
国防総省の任務では、リスクを抑えながらすぐに結果を出す必要があります。その際、任務の有効性と効率を満たしながら、求められる結果を適宜実現するための適切なコストを考慮しなければなりません。使用されるデータプラットフォームでは、ロールベースのアクセス制御/アカウンタビリティ/データの出自が標準装備である必要があり、これによってデータライフサイクルを完全に理解できます。
データ統合には、それぞれの役割を担う人々が関わっており、データライフサイクルにおいて複数回やり取りします。データハブはこういった関係者全員(データアーキテクト、データスチュワード、データ保管担当者、システムアナリストやビジネスアナリストといったデータマネジメント担当者)が業務を遂行できるようにします。彼らはコラボレーションを繰り返し各々のスキルを提供することで、スピードと正確さ、アカウンタビリティを実現しながら、組織内のデータを構築・テストします。
当然ながら、これらのデータ管理担当者は全員が適切なトレーニングを受ける必要があります。そうすることで必要な時間と派生コストも計画できます。理想的には、データプラットフォームベンダーがソフトウェアの無料トレーニングを提供すべきです。
データ倫理
データにガバナンスと制御を適用していくうえで、任務全体における視認性やレポーティング機能が必要です。また、データを元の状態に戻すという作業が必要なこともあります。データの出自とリネージをトラッキングおよびレポートでき、各ステップでのインパクトを評価できるプラットフォームを使って、データに対して何が起こったのかをきちんと把握する必要もあります。
国防総省のデータは、法や規制の対象です。そのような環境のニーズを満たすには、ACID準拠によってデータの信頼性を確実にする必要があります。これに加えて、データプラットフォームは自分たちのガバナンス規則(法/規制/アクセス/視認性に関する)によって定義されたセキュリティをサポートする必要があります。これによって、エンティティモデルの定義、キュレーションサービス(データのハーモナイズ/マスタリング)の設定、割り当てられたロールに基づくキュレーション済み(あるいは生)データの探索と共有において、直接データとやり取りできます。
データ収集
データ統合の際には、任務に応じて、読み込み時にタグ付け/格納/カタログ化するようにしてください。データ統合の作業はできるだけ自動化します。信頼性が低く開発に時間がかかるETL処理は排除すべきです。
一貫性と出自を確実にするため、データ統合時に、インデックス付けし、安全に格納することで、その出自を明確に把握し、このデータに対するすべての処理をトラッキングできます。データプラットフォームは使用ライフサイクルにおいてデータに容易にタグ付けしトラッキングすることで、データへの操作に関する「コマンド&コントロール」の知識を提供します。また必要に応じてデータに関するガバナンスと論理的根拠を提供できます。
エンタープライズ全体におけるデータのアクセスと可用性
データプラットフォームは、ダイナミックな今日の防衛任務のニーズを満たす、安全なエンタープライズ仕様のアクセスと品質を提供する必要があります。適切なエンタープライズプラットフォームであれば、データは安全であり、必要な場合に信頼してデータを共有できます。エンタープライズレベルの品質とは、COOP(連邦政府機能の維持)/COG(連邦政府存続維持計画)要件にあるセキュリティ/モニタリング/データレプリケーションを満たしているということです。
また、最も複雑なIT問題である「データ統合」に注力しなくてはなりません。 高度なセキュリティのニーズに応えるためには、別途データリネージを扱うのではなく、データのすぐ隣でメタデータをトラッキングする必要があります。
セキュリティはアプリケーション開発者の責任にせずに、データベース側でロール/パーミッション/権限などを管理すべきです。セキュリティはアプリケーション層ではなくデータ層で扱うべきなのです。また「データを誰にも公開しない」か、それとも「危険を冒して共有すべき」かと悩む代わりに、「どのデータ」を「誰」と共有可能かについて、管理者がきめ細かく制御できるようにしておくべきです。
AI訓練データ
AI(人工知能)訓練用のデータの作成/管理/保護/活用には、信頼できる統合済みデータが必要です。AIや機械学習は、質の悪いデータに敏感に影響を受けます。AIおよび機械学習プログラムの成功の基盤となるのは、キュレーションされ統合されガバナンスが効いたデータです。それでは、訓練データが適切かどうかはどう判断すべきでしょうか。このデータはどこから来たのでしょうか。個人情報は含まれているでしょうか。AIや機械学習システムにデータを出し入れする際には、データに関するこういった疑問すべてに答える必要があります。
分析や業務のニーズは時間とともに変化します。このためスキーマのマッピング、MDMツールの統合、カスタムアルゴリズムの記述、価値を生み出さない作業ではなく、「スマートキュレーション」が推奨されます。これは、ビルトインのスマートな自動化機能を活用してデータのエンリッチ/ハーモナイズ/マスタリングをより容易かつ短期間で行うものです。
データプラットフォームは、AIや機械学習といった分析ニーズだけでなく、オペレーショナル(業務)のニーズも満たすべきです。いずれにおいても信頼できる情報を安全に提供する必要があります。最適なプラットフォームとは、機械学習機能が備わっており、データのそばで処理を行えるものです。こうすればパフォーマンスを向上できるだけでなく、極めて機密性の高い情報をプラットフォーム外にエクスポートする必要もなくなります。
国防総省のAIおよび機械学習のニーズに応えるデータには、以下が必要です。
- 入力用に質の高いデータをキュレーションできる
- 極めて機密性の高いデータを安全に保護できる
- データのそばで極めて高度なアルゴリズムを適用できる
- 多様かつ多次元の入出力を管理・理解できる柔軟性がある
目的に合致したデータ
米国政府が求めるものを念頭に置いてプラットフォームを検討してみましょう。政府が求めているのは、データ使用倫理の問題を考慮できること、また米国の法律/指針/任務・部隊のデータ管理規則に準拠できることです。データは組織の任務の中心的アセットであるため、使用するデータプラットフォームはガバナンス/セキュリティ/その他のデータライフサイクルポリシーやアクセス制御を簡単に定義・適用できる必要があります。
目的に合致したデータを提供できるデータ統合を短期間で実現するには、データ共有/データアクセス制御の要件を考慮した、反復的なモデルドリブンなプロセスが最も適しています。またアジャイルチームがコラボレーションできるUIがあることが望ましいです。
ここで目標となるのは、複数用途向けの永続的なデータアセットを作成するために、マルチ構造化データのハーモナイズ/マスタリング/エンリッチをシンプルに行えることです。国防総省は、完全なセキュリティとガバナンスのもと、キュレーション済みデータアセット全体に対して複数の観点から柔軟に調査・分析できるべきです。
1つのデータベースでドキュメント/グラフデータ/リレーショナルデータを格納・クエリできるマルチモデルデータベースによって驚くべき柔軟性がもたらされます。ガートナーは、マルチモデルによって物事がシンプルになると考えています。また、特定の分析ユースケースに関してマルチモデルを推奨しています。
マルチモデルDBMSは、既存の本番システムの複雑なポートフォリオをシンプルにします。これにより、監査/同時制御/バージョニング/複雑な分散データ管理/ガバナンス/セキュリティの一貫性を向上できます。
ユニバーサルインデックスと検索が備わっているマルチモデルデータベースにより、標準的クエリ用のインデックスの作成・構成の時間と手間が減ります。全文検索用に別途検索エンジンは不要です。これはデータ統合において極めて便利です。というのもキュレーションの時間を節約し、読み込み後データにすぐにアクセスでき、統合済みデータに対して複雑なクエリができるからです。
最後に、このプラットフォームはクラウド対応であるべきです。当初はオンプレミス導入を検討していても、将来いずれかのタイミングでクラウドに移行したくなることが考えられるからです。サーバーレスのクラウドデータハブは、従来のソリューションに比べて、運用・保守コストを削減し、結果実現までの時間を短縮します。またこのプラットフォームに、自分たちが望むインフラを現在および将来もサポートできる柔軟性があることも確認してください。
コンプライアンス用デザイン
当然のことながら自動化が重要であり、使用するプラットフォームは、データを適切に保護し、完全に管理・格納して、ポリシー/権利/ロールに基づいてアクセス可能にすべきです。またリネージや出自によって保守され、レポート要件によってガバナンスが適用されている必要があります。
データはライフサイクルを通じて適切に保護・保守されている必要があります。使用するデータプラットフォームに、高度にセキュアな環境での実績があり、第三者機関からの認証があることを確認してください。
統合されたデータは安全でありながらアクセス/共有可能である必要があります。これができないとデータを活用できません。それではどうやってこの安全性を実現できるのでしょうか。この領域における主要機能には以下のものがあります。
- きめ細かいアクセス制御。どのデータにいつ誰がアクセス可能なのかを厳密かつ完全にコントロール。許可に応じて個々人ごとに表示を変更
- 強力なデータガバナンス。メタデータによるリネージ/出自のトラッキング、データの品質と可用性の確保、必要に応じたガバナンス規則やポリシーの適用
- 高度な暗号化。極めて機密性の高い情報をパブリッククラウド環境(AWSなど)に格納可能にするために必要です。 このレベルの暗号化により、システム担当のデータベース管理者がデータの中身を見てしまうリスクを冒すことなく、モダンなクラウドアーキテクチャを活用可能
さらに詳しく
MarkLogicは、米国連邦政府のデータプロジェクトにおいて適切なテクノロジーが採用されることが極めて重要だと考えています。以下に、国防総省における21世紀の課題解決に必要なデータソリューション開発に関して、適切なアプローチを評価する際に役立つリソースを挙げておきます。ご参考にしていただければ幸いです。
- ブローアリサーチ:2020年版データ管理プラットフォーム市場
- セマンティックでデータをナレッジに
- MarkLogicのカスタマーおよびパートナーに学ぶ成功の秘訣
- ガートナーの新しいクラウドデータベース比較レポートにおいてMarkLogicがビジョナリーに
Bill Washburn
Bill Washburn is MarkLogic’s Federal Chief Strategy Officer providing Defense, Intelligence and Civil clients with a vision and strategy for their data challenges and successes. Prior to MarkLogic Bill worked at Informatica Federal Operations Corp where he led the company as the President and pursued Data Management and Quality business with the federal government in the Intelligence Community and National Security sectors. Bill’s career has included executive roles with large and small services companies like SAIC, CSC, Octo and Perspecta (then Vencore) focusing on Analytics, Systems Engineering, and Integration efforts in the Intelligence Community, Homeland Security, and Defense Department.
Bill has led large development teams building enterprise wide solutions for the IC and has run IT and Communications Operations Centers for large worldwide secure federal enterprises with a focus on worldwide communications and IT sustainability and reliability. Prior to Industry Bill served 10 years in the US Army with assignments at the White House Communications Agency (WHCA), 25th Infantry Division and others.