データベースの適応範囲の限界

データベースの適応範囲の限界

著者:坂島悠太

データベースの今

データベースという名詞は皆さんもデータ漏洩のニュースやIT系の話題などで1度は聞いたことがあるだろう。今は大多数の企業がビッグデータといわれる「連続的」、「多種多様」、「大量」なデータを重要視している。それによりデータベースの存在自体は無くてはならないものとなっている。今は何にでもデータベースはリソースの一部として利用されているから、SNSなどを閲覧しているとき、間接的にいくつのデータベースを無意識に操作してきているのかは知る由もない。また、これほどデータベースが有名になった事で、この記事を見ているみなさんでもその中の一部は「データベースを学ぼう!」と一度は思ったことがあるのではないか。しかし、実はデータベースにはこれまでに挙げたようなデータ分析用途では限界があり、データベースよりもデータレイクのほうが適している場合もあることを前提の情報として知っておかなければならない。

データベース・データレイクとは

まずはデータベースの概念についておさらいしておきたい。そもそもデータベースとは構造化されたデータを保存していくシステムだ。また、データスキーマ同士の関係を細かく設定できるので、管理や分析がとても行いやすい。そして、設定したデータの関係などを用いて細かな検索条件を設定することで効率的で高速な検索や演算まで同時に行ったり、簡単な数学的関数を通してデータ分析を行ったりすることも可能だ。もちろんデータベースは様々な用途で重宝されている。例えば個人情報や職務上のデータなどの管理、顧客情報の管理(BIツールなど)、最後にActive DirectoryといったLDAPによるディレクトリサービスだ。これら3つのユースケースに共通するのは名前、電話番号、メールアドレスなど、スキーマを設定しやすいため、構造化しやすいことである。それに対してデータレイクデータの湖という和訳通り、構造化されていないそのままのデータを格納していくことが得意だ。例えばIoTデバイスが生成するログや計測値などをそのまま蓄積させていくことができる。ただし、データレイクとデータベースにはデータの規模は関係がない。

データベースの限界

BIを構築していくにあたり、データベースを利用するのであれば、様々なデータに対して条件分岐などを組み合わせ、データをそれ専用に構造化したりする必要があり、世間一般で言われるビッグデータのような高速で大量にトランザクションが発生するものを格納するという用途には難しい。しかもビッグデータは多種多様なデータが発生することを忘れてはならない。多種多様なデータをリアルタイムで条件分岐させながら整形し、データベースに登録するのはコストがかかるから悪手だという他ならない。その分構造化されていてあとから分析する際にはメリットがあるかももしれないが、この処理にリソースを割いてもしデータをドロップするようなことがあっては元も子もない。だからデータレイクを使えば非造化データのまま蓄積することができて、データ分析に生かすことができる。残念ながら、データレイクはデータベースより世間一般でイメージしにくいということから言葉としては用いられないが、ビッグデータの分析体制を構築する際に用いるいわゆるデータウェアハウス(DWH)では好んで使われる。

参照

[データレイク(Data Lake)とは?](https://www.splunk.com/ja_jp/data-insider/what-is-a-data-lake.html )
[データレイクとは]( https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/ )