AWSにもデータカタログサービスが!Amazon DataZoneを解説

公開日:2023年10月30日最終更新日: 2023年10月30日

AWSでデータマネジメントできるサービスとして「Amazon DataZone」が存在します。2022年11月に概要が公開され、2023年10月に一般提供が開始されました。一般的には「データカタログ」と呼ばれる機能を有していて、データのカタログ化、発見、管理、共有、分析を可能にするデータ管理サービスです。今回は、一般提供が開始され、気軽に利用できるようになったAmazon DataZoneを紹介します。

Amazon DataZoneとは

Amazon DataZoneは、組織内にあるデータを管理したり活用したりするためのサービスです。一般的に、組織内には多くのシステムが存在し、それらの中には連携されていないものが多く含まれます。結果、有用なデータが点在する状況になってしまい、データを適切に扱えなくなるのです。この問題を総合的に解決するためのツールだと考えましょう。

なお、AWSには似たサービスがあり「Lake Formation」「Glue Data Catalog」「Athena」などが挙げられます。ただ、これらはデータ活用について一定の知識が必要であるのに対して、Amazon DataZoneはほとんど技術的な知識を必要としません。今まで以上に使いやすいデータカタログサービスとして、Amazon DataZoneが提供されるようになったのです。

Amazon DataZoneの主となる4つの機能

Amazon DataZoneには、中心となる機能が4種類存在するため、それらについて理解しておきましょう。

Business data catalog

組織全体のデータを、メタデータと共に「ビジネスコンテキスト」でカタログ化する機能です。データをカタログ化しておくことによって、簡単に検索したり共有したりすることが可能となります。

今まで存在していた AWS Glue Data Catalogとは異なり、Amazon DataZoneではデータを同期する頻度や連携するテーブルの内容などを自由に設定可能です。内部的にはAWS Glue Data Catalogが使用されていますが、より利便性の高まった機能だと考えると良いでしょう。

なお、管理に必要なメタデータは手動で登録することが可能です。ただ、データの量が莫大であると対応しきれなかったりミスが生じたりするかもしれません。これを防ぐために、Amazon DataZoneにはデータカタログに必要なメタデータの付与を人工知能が提案する機能も用意されています。

Data project

事前にData projectを構築しておくことによって、AWSを用いたデータ分析へのアクセスを簡素化できます。例えば、ユーザやデータアセット、分析ツールなどを指定したグループを作成しておくと、それらのグループに対してアクセス権限を設定できるのです。これにより、適切なアクセス管理下でメンバーが情報を共有したり相互に加工したりできます。

一般的に、組織内のデータは全員が自由に閲覧して良いものではありません。例えば、従業員の評価に関する情報は、管理職など一定の地位がある人しか閲覧できないものです。そのようなデータアクセスの管理なしに、莫大なデータを効率よく管理することはできないでしょう。Data projectという形で、アクセス権限や利用できるAWS内の分析サービスなどを制限することで、最適な環境でデータカタログを運用できます。

Workflow

スムーズにデータ連携するため、Workflowと呼ばれる機能が用意されています。簡単に説明すると、必要な情報を入力するだけで、簡単にサービス間を接続してくれるものです。一般的には、データソースとデータレイクなどを細かな設定で接続する必要がありますが、Amazon DataZoneはこのような設定作業を自動化してWorkflowと呼んでいます。

Workflowが用意されていることで、データを提供する側も利用する側も、安全なアクセスが可能です。自分たちで設定すると、何かしらのミスが生じてしまうかもしれません。しかし、Amazon DataZoneならば、そのようなリスクを背負わなくて良いのです。

Data portal

AWSコンソールではなく、Amazon DataZone専用のユーザーインターフェースです。収集されたデータの状況を確認したり、収集されたデータを分析したりできます。同時に複数のユーザで利用できるため、組織内の業務効率化も実現可能です。

また、権限が与えられていればAthenaやRedshiftに接続し、Query Editorなどを操作できます。必要なクエリを直接実行できるため、事前にクエリを登録して実行させておく必要はありません。

Amazon DataZoneを利用する際の料金

Amazon DataZoneを利用する際は、コストを認識しなければなりません。無料期間が設けられていますが、それ以降はコストに注意しましょう。

ユーザ数

Amazon DataZoneを利用できるように設定したユーザ数に応じて、サブスクリプション料金が請求されます。無料トライアル中は、50人までが参加可能であり、それ以降は1人あたり月額9USDです。500人を超えると、月額料金が割引される仕組みも設けられています。

月額料金は、上記で紹介したData portalへアクセスできる状態のユーザ数に対して課される仕組みです。そのため、全く利用していないユーザであっても、登録しているだけで料金が発生します。Amazon DataZoneを組織内に展開する際は、ユーザ管理を意識した方が良いでしょう。

ストレージ

それぞれのユーザが利用できるストレージ上限の20MBを超えると、追加の料金が請求されます。Amazon DataZoneのドメインやビジネス用語集、メタデータテンプレートやデータプロジェクトなど、AWSに保存されているデータ全体から算出される値です。

ただ、これはユーザ一人ひとりで算出されるのではなく、構築したドメイン単位で算出されます。例えば、50人で契約している場合、ドメインに対するストレージの上限値は1,000MBです。個人が管理するデータ量に偏りがあっても、全体として上限を超えていなければ、料金は発生しません。

リクエスト

月間のリクエスト件数が1ユーザあたり4,000件を超えると、リクエストに対しても課金が発生します。100,000件のリクエストあたり10USDと安価ではありますが、コストが発生する点は認識しておきましょう。

リクエストのカウント方法は管理しづらく、Amazon DataZoneとのやり取り全てが該当します。例えば、検索結果の表示やデータの詳細表示、データプロジェクトの作成などです。簡単な操作でも繰り返し利用していると、認識していないうちにリクエストが増えるかもしれません。料金面ではここも注意しなければなりません。

まとめ

AWSから新たに公開された、データカタログサービスであるAmazon DataZoneを解説しました。データレイクやデータベースなど、AWSにはデータ管理に関するサービスが存在していますが、それらの良い部分を抽出したようなサービスです。

データカタログとして必要な基本的な機能は、Amazon DataZoneに集約されていると表現しても過言ではありません。ただ、今までAWSの基盤としたデータ統合を利用していなければ、馴染みずらい部分もあるでしょう。AWSはAmazon DataZoneのチュートリアルを公開しているため、これを活用しながら、実際に動かしてみることをおすすめします。

クラウドの運用代行や導入、開発は23年の実績をもつジードにご相談ください

  • クラウドの運用代行

    クラウドの監視・保守・運用の代行 お客様が運営するクラウドの監視・保守・運用業務を、ジードが代行いたします。

    サービスの詳細はこちら

  • クラウドの設計・構築

    クラウドの設計・構築 お客様のご要望に沿って、適切なクラウド選定から設計・構築までを行います。

    サービスの詳細はこちら

  • クラウド上でのシステム開発

    クラウドの設計・構築 Azure上で、AI + 機械学習、分析、ブロックチェーン、IoTを開発します。

    サービスの詳細はこちら

お問い合わせ・お見積もりのご依頼はお気軽に

Scroll to top