Amazon DataZone

DataZone

DataZone とは

DataZone は組織のデータを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスです。データをカタログ化し、共有することで、組織内の様々なデータのコラボレーションを容易にし、データによる洞察や意思決定に役立ちます。

大まかな理解

DataZone の大枠をザックリと説明します。細かい部分は正しくない可能性もありますが、全体的なイメージの理解を優先しています。

例えば、ある人 (User A) がリンゴの収穫量に関するデータを所持しているシナリオを考えます。

この状態では、該当のデータは User A のみが使用しています。

あるとき、別の人 (User B) からそのデータを利用したいと連絡がありました。User A は User B に対して、このデータにどのようなデータが含まれているか (リンゴの収穫量) を説明し、User B がデータを参照できるように設定しました。

しばらくすると、今度は User C からもデータを利用したいと連絡がきました。User A は User B の時と同様の対応を行います。

現状はデータを共有しているのは二人ですが、今後このデータを利用したい人が増えてくると

  • 管理が煩雑になる
  • User A の対応がボトルネックになる (迅速にデータを利用できない可能性がある)

といった問題が発生しそうです。

また、実は User C は以前にもリンゴの収穫量に関するデータを利用したいと考えたことがありました。しかし、その時には該当するデータを見つけられず、今回はたまたま User B が該当のデータを利用していることを知って User A に連絡したようです。このように、有用なデータがあるにもかかわらず、それを知らないせいでデータ活用の機会を損失するといった問題も発生しえます。

上記を踏まえて、いったん現状の課題を整理してみます。

そこで、これらの課題を解消するために User A は、以下を実施することにしました。

  • データの説明書を作成する
  • 作成した説明書を共有し、データを利用したいユーザーが説明書を検索、閲覧できるようにする
  • 特定のユーザーについては自動でアクセス許可するような設定を行う

説明書には、作成日やデータの種類の説明といった情報だけでなく、データの格納場所やデータへのアクセス方法も記載しておきます。これにより、データを利用したい人は説明書を確認するだけで、データの利用方法を知ることができます。また、その説明書を特定の場所に公開して検索できるようにしておくことで、データを探したい人が能動的にデータを見つけられるようになります。

管理の面では、ある部署のメンバーなど特定の要素を持つユーザー群に対して、事前にアクセス許可を設定しておくことで、データにアクセスしたいユーザーが増えるたび User A が操作する必要性はなくなります。

先の説明にもあったように DataZone は

  • 保存されているデータのカタログ化
  • 作成されたカタログの管理、共有

を主に行うサービスです。

データのカタログ化というのは、先の例でいうとデータの説明書を作成する操作にあたります。

つまり、DataZone は組織内データの説明書の作成、および管理を行い、作成した説明書を共有する場を提供するサービスと言えそうです。共有される説明書にはデータへのアクセス方法なども含まれています。DataZone では、その情報をもとにして実際にデータへアクセスするための方法も提供します。

用語