【用語集】データレイクハウス
データレイクハウスは、データレイクとDWH(データウェアハウス)の良いとこ取りをした次世代のデータ基盤アーキテクチャです。以下でその特徴について解説します。
目次
データレイクハウスとは
ここでは、データレイクハウスの概要やメリット・デメリットを解説します。
データレイクハウスの概要
データレイクハウスは、DWHの分析機能と、データレイクの経済的かつ柔軟なデータリポジトリとしての機能を活用できる、データ基盤アーキテクチャです。
従来DWHが実施してきたビッグデータの管理や、ACIDトランザクションの機能に加えて、データレイクの柔軟性が機能として搭載されています。その結果、あらゆるデータのBI(ビジネスインテリジェンス)と機械学習を同じ基盤上で実現しています。
データレイクハウスが生まれた背景
近年、新型コロナウイルスをはじめとした不確実性の高い事象が発生し、市場に大きな影響を与えています。過去のデータを蓄積するDWHを用いたデータ活用では未来の予測には対応できず、加えてAIモデルの活用が重要視されています。そこで大量のデータから機械学習を行い、未来予測を行えるデータを扱うデータレイクの重要性が高まりますが、企業内ではデータのサイロ化によって一元的なデータ管理や分析を困難にしています。
このような課題を解決するためにデータレイクハウスが誕生しました。
メリットとデメリット
メリット | データレイクとDWHを同一基盤で管理できるデータ処理の高速化 |
デメリット | 教育コストがかかる現状だとデータレイクやDWHよりも効率が落ちる可能性がある |
データレイクハウスは、データレイクとDWHを同じ基盤上で管理できるため、データ部門が複数のシステムへアクセスする必要がなくなり、データ処理が高速化します。
一方で、データレイクハウスは使いこなすまでに必要な教育コストがかかってくるため、現時点ではデータレイクやDWHよりも効率が落ちる可能性があります。しかし、これらの問題は技術が成熟していくことで解消されます。
データレイクやDWH(データウェアハウス)との違い
データレイクハウスは、データレイクやDWHと違った役割を持っています。ここでは、それぞれの違いを解説しましょう。
データレイクとの違い
データレイクとの違いは、データが「沼化」する心配がないことです。
データレイクは、定型データならびに非定型データをそのままの形で大量に格納できるため、「どんなデータが格納されているか分からない」「誰がどのような必要性でデータを保存しているか分からない」「必要なデータをすぐに入手できない」といった沼化するリスクを抱えています。
一方で、データレイクハウスは沼化を解消するために、ACIDトランザクションによるデータの読み取りや書き込みを実施するため、データの一貫性を担保できます。
DWH(データウェアハウス)との違い
DWHとの違いは、機械学習で必要となるデータに直接アクセスできる点です。
DWHは、構造化データおよび特定の半構造化データの分析を可能とするシステムのため、機械学習のサポートが制限されています。しかし、データレイクハウスはオープンAPIを利用してデータへの直接アクセスを可能とし、PyTorch・Tensorflow・XGBoostなどのML及び、Python・R言語のライブラリをサポートすることで、データ分析と機械学習を可能としています。
DWHは、過去の記事で詳しく解説しているのでご参考ください。
データレイクハウスの機能
データレイクハウスには、主に以下の機能が搭載されています。
- トランザクションサポート
- スキーマの適用とガバナンス
- BIサポート
- コンピューティングとストレージの分離
- オープン性
- 構造化・非構造化データの多様なデータへの対応
- 様々なワークロードのサポート
- エンドツーエンドのストリーミング
それぞれの機能を下記のページを参考に解説します。
(参考:databricks | What Is a Lakehouse?)
トランザクションサポート
データレイクハウスは、多くのデータパイプラインで同時にデータの読み取りと書き込みをおこないます。また、ACIDトランザクションのサポートによってデータの一貫性が保たれることも特徴です。
スキーマの適用とガバナンス
データレイクハウスは、DWHにデータを格納するときの構造となるスタースキーマ、スタースキーマを正規化するためのスノーフレークスキーマをサポートしています。さらに、DWHと同様にデータのアクセス制御、データ品質やコンプライアンスを管理するための仕組みも提供しています。
BIサポート
データレイクハウスはデータに対してBIツールを直接利用できます。その結果、データレイクとDWHの両方でデータを保持する必要性がなくなり、常にリアルタイムでデータを閲覧できるでしょう。
コンピューティングとストレージの分離
データを格納するストレージは別のリソースを利用するため、スケーラビリティの高い状態を保てます。データ量が増加すれば、ストレージを柔軟に拡大できるため、可用性を高めながらシステムを利用可能です。
オープン性
データレイクハウスは、APIの活用によって、機械学習やPythonやRなどのライブラリを利用したさまざまなツールやエンジンに直接アクセス可能です。
構造化・非構造化データの多様なデータへの対応
データレイクハウスは、画像・ビデオ・オーディオ・半構造化データ・テキストなどの非構造化データから構造化データまで、多様なデータの蓄積・変換・分析ができます。
様々なワークロードのサポート
データレイクハウスは、データ解析・機械学習・SQL分析などのさまざまなワークロードがサポートされています。これらのワークロードをサポートするためには、複数のツールが必要となるケースがありますが、データレイクハウスであれば一つの基盤ですべてを実現可能です。
エンドツーエンドのストリーミング
ストリーミングのサポートにより、リアルタイムでデータを把握できるため、アプリケーションごとの管理が不要となります。
データレイクハウスがビジネスシーンへ与える影響
データレイクハウスは、ビジネスシーンへ以下の影響を与えるといわれています。
- AI活用の本格化
- プロセスのサイロ化の改善
AI活用の本格化
現在、データの準備をするエンジニアとAIモデルの構築をするデータサイエンティストがタッグを組み、AIによる予測モデルの見直しを日々実施しています。しかし、データの準備と予測モデルの見直しは構造化されたデータをDWH、非構造化データをデータレイクでそれぞれ管理しているため、基盤が違うことでデータのサイロ化が進んでしまいます。データレイクハウスは、すべてのデータを一元管理できるため、データのサイロ化を防ぎつつAI活用の本格化に貢献できるでしょう。
プロセスのサイロ化の改善
データのサイロ化とともに発生するのがプロセスのサイロ化です。DWHの管理するデータアナリスト、ETLやデータレイクなどを構築するデータエンジニア、機械学習を担当するデータサイエンティストなど、業務ごとに利用するシステムが異なることでデータアーキテクチャを複雑にしています。データレイクハウスは、これらの機能を一つに集約できるため、プロセスのサイロ化の改善につながるでしょう。
信頼度の高いデータ基盤の構築は弊社にお任せください
データレイクハウスは、構造化データと非構造化データを一元的に管理できる仕組みのため、データの処理速度が向上します。しかし、データレイクハウスを構築するためには、信頼度の高いデータ基盤の存在が不可欠です。
当社が提供するクラウドETL「Reckoner」を利用すれば、信頼度の高いデータ基盤の構築を短期間・低コストで実現可能です。
ETLツールは、データの取得・加工・出力を自動化できるため、データの信頼性・作業の効率性が向上し、コスト削減にもつながります。また、多数のデータベースやSaaSアプリケーションとの接続が可能で、シンプルなGUIによりノーコードですべてを完結できることも魅力的です。さらに、フルマネージドサービスでの運用となるため、運用工数がゼロとなります。
現在Reckonerでは無料トライアルを受け付けているため、今後ETLを新たに導入検討する企業はぜひご参考にしていただければ幸いです。
また、ETLツールについて詳しく知りたい、ETLツールの選び方を知りたいという方はこちらの「ETLツールとは?選び方やメリットを解説」をぜひご覧ください。