はじめに

2010年代からビッグデータというキーワードがトレンド化し、様々な企業で大量なデータを蓄積し、ビジネスに活かす動きが活発化しました。

多量データの蓄積～分析・可視化においてクラウド利用が進む一方で、セキュリティに対する懸念等で日本企業はクラウド利用に抵抗を感じており（「Oracle Autonomous Data Warehouse Cloud(ADWC)の機能調査開始について」を参照）、オンプレミスでのデータ蓄積を要望されることもあります。

Oracle Autonomous Data Warehouse Cloud(ADWC)の機能調査開始について

また、既存のシステムとの連携を要望されることもあり、大量データを取り扱いやすいNoSQL(Not Only SQL：RDB以外のデータベース)ではなくRDB(Relational DataBase：関係データベース)を選定せざるを得ないことがあります。

本テーマでは数回にわたって、クラウドを利用せずに汎用的なRDBを用いてオンプレミスでの多量なデータを取り扱う場合に問題となる場面や、その問題に対する解決策、クラウドを利用した場合との比較などを考察していきたいと思います。

ビッグデータとは

そもそもビッグデータとはどういったものか。

ビッグデータとは単純に多量のデータというだけではなく、以下の3つの「V」が特徴的となります。

Volume：多量
Valiety：多様性
Velocity：流動性

（参考：総務省統計局なるほど統計高等学園高等部：https://www.stat.go.jp/koukou/trivia/bigdata.html ）

Volume：多量は、いわずもがなな感じはしますが多量のデータです。一般的には数テラバイト(1,000ギガバイト)～数ペタバイト(1,000,000ギガバイト)以上がビッグデータとして取り扱われているのではないでしょうか。

Valiety：多様性とは様々なデータの種類を指しています。ソーシャル・メディアデータや購買情報などのオペレーションデータ、機械のセンサから収集したセンサデータ、サーバのログデータなど多種多様なデータです。SNSやIoTなどインターネットが広範囲で利用されるようになって、データの多様性も高まっているようです。

Velocity：流動性は生成頻度が高いデータを指しています。工場のセンサなどでは秒単位以下～分単位程度で生成されるデータをリアルタイムに収集します。生成頻度が高いデータほど、期間が短くてもビッグデータになり得ますね。