データガバナンスをどう守る?BigQuery編
Google検索やInstagramでの画像の閲覧、ECサイトでの買い物など日々接するサービスがオンライン化されることで我々を取り巻くデータの流通は爆発的に上がっています。企業においてはDXに代表されるように要所要所がデジタル化されることで扱えるデータが増えています。今回詳述するデータガバナンスは増えゆくデータの取り扱いにおいて俯瞰してどのようなことを考慮しておくべきで、具体的なソリューションとしてBigQueryを用いた場合のデータガバナンスの向上についてご紹介していきます。
データガバナンスとは?
データガバナンスは企業やホールディングスでのデータの取り扱いルールを制定したもので、
(1)データの取得や管理または提供といったシステム上の仕組みを実現するデータマネジメント
(2)(1)に関連して誰がどのようにデータの受け渡しや責任をもつかといった役割
(3)個人情報の取り扱いを表明したプライバシーポリシーに代表されるポリシー
(4)データの形式や取り込み方法が多種多様であると管理コストが上がるため一定の汎用化されたルールに落とし込んで受け渡す。これを標準化とよび、そのルールを管理保守する
(5)データの欠損や重複などデータの不整合を監視したり外れ値の検知をする指標
(6)どのようなデータを持っているのか、またそれらのデータが複製加工される中でマスターがどれかを特定しておくデータカタログの作成が必要
このような様々な管理ルールの集合体をデータガバナンスと呼びます。これらを見てわかるように技術的な観点に止まらず、法的な管理やグループ企業での統制など関わる職種は広く難しい印象を与えるものの、データの取り扱いは近年厳格化がすすんでいるため企業としては気をつけなければいけない分野となっています。
データガバナンス向上のために必要なこと
(1)に関連して増えるデータへのDWHとしての拡張性
(2)に関連してシステム関連系をしていることがほとんどかと思いますのでシステムオーナーを決めて役割を認識すること
(3)実際に持っているデータと理想とするデータの差分を都度認識して、ポリシーの違反を取り締まる、もしくはポリシーを拡張するなどビジネスとの連携
(4)は(1)と同様にデータのユースケースに応じた汎用的に利用可能なDWHの決定とパイプラインの構築
(5)欠損の監視の仕組みをさらにシステムによって検知する
(6)dbtに代表されるdata stackツールを利用したER(entity-relationship)図を用意する
といった多くがビジネスの加速化とシステム構築が密接に連携していることが理解できると思います。このようにデータを安全にかつ、上手く使える基盤構築は重要な事柄になります。続く章では具体的なシステムを例にデータガバナンスの向上を理解していきます。
データガバナンス向上のためのBigQueryの活用
Googleが提供しているGoogle cloud platform(以降、GCP)はクラウド環境上で拡張性高いシステム構築が可能なプラットフォームになっており、サーバ監視や構築の手間の多くをプラットフォーム側で吸収できる仕組みになっており、近年人気なクラウドプラットフォームの1つになっています。
その中でBigQueryというDWHを提供しており、ビッグデータを素早く、スモールなスタートからデータが大きく(ビジネスが拡大)なることに合わせて拡張することが容易な仕組みとして人気のDWHとなっています(=(1)に関連)。
BigQueryではテーブル, 列や行ごとのセキュリティレベルを設定できます(※2, 3)。この機能によってどのデータを誰に見せてもいいのかを列レベルで実現できます。そこで(3)に関連して個人情報がこの機能に有用に機能することをご紹介いたします。
例えば企業に属する従業員データには個人情報としてあまり参照権限を付与したくない項目が多く存在します。なかでも賃金データの閲覧は扱いに注意を要する項目だというのは想像しやすいのではないでしょうか。この賃金列のみを本機能によって特定のユーザー(人事など)にしか見れないようにできることはデータベースの活用において重要な項目となるのではないでしょうか。
またBigQueryはGCPの一部のためDataflowなどとの連携が簡単であったり、”構築の手間を省く設計”によりGCP外のデータパイプラインサービスとの連携が可能な側面もあります。またパフォーマンス監視による欠損事象の一部を検知可能になります※4。このようにデータガバナンス、データマネジメントの多くの機能を保有していることが理解されます。
どのような企業にBigQueryが向いているか
GCPは多くの面で魅力を持っており、データガバナンスを高めつつ有用に使えるVertex AIやBigQueryMLなど機械学習の仕組みと連携します。すでにGCPを使ったシステム構築をしている企業はもちろんAWSなど別のクラウドプラットフォームやオンプレシステムを利用していてもBigQueryを中心としたデータの利用に興味がある企業でもデータパイプラインを構築することで有用に使えるケースは多くあると考えられます。
Reckonerとの連携
BigQuery自体の優秀さは上記で語った通りですが、データパイプラインサービスと連携によりその価値を発揮していきます。Reckonerではソース(シンク)選択にプリセットされているのでBigQueryとのパイプラインの構築が簡単にできます。前章に合致している企業様はReckonerによる構築を一度ご検討をしてみてはいかがでしょうか?
Reckonerでは現在、14日間無料トライアルをご提供しておりますので、ぜひご活用ください。
参考
※1 https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h29/html/nc121210.html