[AWSユーザー向け] ETLでデータ分析環境を構築するための3つのポイント
Amazon Web Services (AWS) を利用するユーザーが、AWS上の各サービスからデータを取得し、変換・加工した後、分析や連携などに活用したいというケースは多々あるかと思います。以下では、ETLを活用することでどのような可能性があるかについてご紹介いたします。
目次
- AWSユーザーはETLを利用してどのような作業を行なっているか
- AWSユーザーがETLを利用しない場合・する場合
- AWS+ReckonerでETL環境を構築すべき3つの理由
- AWSユーザーの利用多数:14日間無料でお試し可能
AWSユーザーはETLを利用してどのような作業を行っているか
当社のETLツールである Reckonerを使って、AWSの各サービスからデータを取得、変換・加工されるユーザー様は多くいらっしゃいます。具体的には以下の3つのサービスからデータを取得するケースが多いです。
- Amazon RDS
- Amazon S3
- Amazon Redshift
なお、各データ元から取得したデータの変換・加工についてですが、「jsonなどのファイル形式を、テーブル形式でパース・集計する」「特定条件で抽出しデータマートを作成する」といった活用が多いです。例えばRedshiftであれば、
- Redshift → Reckoner → DBやDWH
といった流れでデータを変換・加工した後に活用されています。
AWSユーザーがETLを利用しない場合・する場合
さて、AWSユーザーがETLを利用してデータ変換を行った場合と、行わなかった場合で、どの程度工数に違いがあるのか見てみましょう。ここでは、RDSのデータベースのデータを変換し、SaaSにアップロードするまでの流れを比較してみます。
ETLを利用しない場合
- (処理1) SQLを発行しデータベースに問い合わせ、CSV形式でデータをダウンロード
- (処理2) Excelで読み込んで集計、変換(手作業)
- (処理3) SaaSにCSVインポートが可能であれば、アップロードを実施。もしインポートが不可能であれば、API経由でデータ書き込み。
これは完全に手作業で行う場合を想定していますが、部分的に自動化する場合は、データ取得・変換/加工、データ書き込みを行うバッチスクリプトを一から作成する必要があります。またサーバー側にホスティング・運用などの作業が必要となります。当然、エンジニアの工数が必要となってしまいます。そして、これらの作業はワークフローごとに必要です。
ETLを利用する場合
- (処理1) ETL上でワークフローに必要な情報(データ取得、データ変換・加工、データ出力)を設定。
ETLを利用する場合はこれだけです。これだけで毎日決まった時間に、定められた処理を自動で実施してくれます。Reckonerのようにコーディングなしでも利用できるETLであれば、エンジニアの工数は一切不要です。
このように、ETLを利用すると「データ処理を開始する時点で設定さえすれば、後は自動で全て処理」を行ってくれます。よって、バッチ作成に貴重なエンジニアのリソースを割くことなく、より重要度の高い作業に集中することが可能です。
AWS + ReckonerでETL環境を構築すべき3つの理由
ここまでで、AWSユーザーがETLを利用してデータ関連業務を分析すべき理由について説明いたしました。ここでは「他のETL」ではなく、「当社のETLであるReckoner」を使うべき3つの理由について、説明いたします。
1.コーディング不要・エンジニア不要
ETL製品には、「製品としては優れているが、細かな処理の設定を行う際にプログラミングが事実上必須」である製品があります。こうした製品を利用した場合、ワークフローを作成・編集するごとに、エンジニアに作業依頼を行わねばなりません。エンジニアの工数がかかるだけでなく、迅速な分析が行えないというデメリットがあります。
これに対して、Reckonerは、直感的なGUIが用意されており、コーディングなしでワークフローの作成・編集が可能な製品です。Reckonerを利用されている多くのユーザーは非エンジニアで、Reckonerをコーディングなしで利用され、日々の処理を完了されております。
2.スケーラビリティ(テラバイト級を処理可能)
Reckonerは、少ない処理から巨大な処理まで、ユーザーの処理スケールに合わせたプランを提供しています。処理数が少ないユーザーであれば、限られたワークフローのみから安価にご利用いただけますし、巨大な処理や頻繁な処理が必要な場合は、テラバイト級の処理を短時間で完了できるほどのスケーラビリティを提供しています。
オンプレミス型のETLの場合、ETLサーバーの処理性能がすなわち、データ処理速度の限界となりますが、Reckonerは100%クラウドネイティブの製品であるため、処理量が増えても容易に切り替え対応可能です。
3.日本語対応
ETLツールに限らず、海外由来のSaaS製品は、製品の活用とサポート面で3つの弱点があります。
・1点目: ドキュメントが英語
海外由来のSaaSツールは、ドキュメントが基本的に全て英語で、一部のドキュメントしか日本語訳されていない(または全く日本語訳されていない)のが一般的です。このため、英語のドキュメントを読み解いて利用を進めなければならなくなります。これはすなわち、ノンコーディングの製品であっても、利用の敷居を高くしてしまうというデメリットがあります。
・2点目: 代理店経由のサポート
海外メーカー製品であるが故に、販売代理店経由のサポートが多く、情報の質と新鮮さに問題が生じる場合があるという点です。一般的に、IT製品の販売代理店となる企業は、多数の製品を取り扱っているため、一つ一つの製品に厚いサポート体制を置くことができません。このため、「回答内容が前のバージョンに基づくものだった」「代理店担当者が間違った理解をしていた」といった問題が生じる場合があります。
・3点目: サポート対応の遅れ
例えば、日本のサポートでは対応ができず、日本から海外メーカー本社へ問題がエスカレーションされた際に、時差があるが故に対応が遅くなるといったケースが想定されます。アメリカ西海岸にあるメーカーであれば、業務を開始する時間が、日本時間ではちょうど夕方に当たります。よって、「質問をしても、1日に1往復程度しかやり取りが進まない」というケースも往々にしてあります。
また、海外メーカー製品の問題について問い合わせたら、「起こった事象や運用の詳細を英文で書かねばならず、問い合わせを行うこと自体に時間がかかった」という場合もあります。
Reckonerは、日本で開発された製品で、ドキュメントもすべて日本語で準備されています。製品は直接メーカーがお届けしているので、販売代理店との「情報格差」といった問題自体起こりません。さらに、ユーザー様の業務時間と同じ日本時間で営業していますので、問題の迅速解決が可能です。
なお、日本語でのチャットサポート、メールサポートに対応しておりますので、日常の利用における「ちょっとした疑問や質問」なども、問い合わせ工数をかけず気軽に問い合わせいただけます。
AWSユーザーの利用多数: 14日間無料でお試し可能
当社のETL製品であるReckonerは、特にAWSユーザーから高い支持を受けております。毎日、多くのReckonerユーザー様がRDSやS3、Redshiftからデータを取得し、自動で変換・加工を行い、より優先度の高い業務にリソースを投下されています。
Reckonerは14日間でご利用頂けますので、ぜひ「1つのETLワークフローを作る」ところから、ご評価ください。「作り方が分からない」「データが多すぎて収拾がつかない」といった相談も大歓迎です。
ETLツールについて詳しく知りたい、ETLツールの選び方を知りたいという方はこちらの「ETLツールとは?選び方やメリットを解説」をぜひご覧ください。