(第1回)オンプレミスRDBでのビッグデータの蓄積

(第1回)オンプレミスRDBでのビッグデータの蓄積

目次

はじめに

2010年代からビッグデータというキーワードがトレンド化し、様々な企業で大量なデータを蓄積し、ビジネスに活かす動きが活発化しました。

多量データの蓄積~分析・可視化においてクラウド利用が進む一方で、セキュリティに対する懸念等で日本企業はクラウド利用に抵抗を感じており(「Oracle Autonomous Data Warehouse Cloud(ADWC)の機能調査開始について」を参照)、オンプレミスでのデータ蓄積を要望されることもあります。

Oracle Autonomous Data Warehouse Cloud(ADWC)の機能調査開始について

また、既存のシステムとの連携を要望されることもあり、大量データを取り扱いやすいNoSQL(Not Only SQL:RDB以外のデータベース)ではなくRDB(Relational DataBase:関係データベース)を選定せざるを得ないことがあります。

本テーマでは数回にわたって、クラウドを利用せずに汎用的なRDBを用いてオンプレミスでの多量なデータを取り扱う場合に問題となる場面や、その問題に対する解決策、クラウドを利用した場合との比較などを考察していきたいと思います。

ビッグデータとは

そもそもビッグデータとはどういったものか。

ビッグデータとは単純に多量のデータというだけではなく、以下の3つの「V」が特徴的となります。

  • Volume:多量
  • Valiety:多様性
  • Velocity:流動性
ビッグデータ定義
ビッグデータ定義の3要素

 

Volume:多量は、いわずもがなな感じはしますが多量のデータです。一般的には数テラバイト(1,000ギガバイト)~数ペタバイト(1,000,000ギガバイト)以上がビッグデータとして取り扱われているのではないでしょうか。

Valiety:多様性とは様々なデータの種類を指しています。ソーシャル・メディアデータや購買情報などのオペレーションデータ、機械のセンサから収集したセンサデータ、サーバのログデータなど多種多様なデータです。SNSやIoTなどインターネットが広範囲で利用されるようになって、データの多様性も高まっているようです。

Velocity:流動性は生成頻度が高いデータを指しています。工場のセンサなどでは秒単位以下~分単位程度で生成されるデータをリアルタイムに収集します。生成頻度が高いデータほど、期間が短くてもビッグデータになり得ますね。

ビッグデータ利用の流れ

一般的にビッグデータを利用するまでの流れとして、「収集」、「蓄積・統合」、「分析」、「可視化」を経て、ビッグデータをビジネスに活用する形にすることが出来ます。

ビッグデータ利用の流れ
ビッグデータ利用の流れ

収集:データを収集し、データベースへの登録を行う

蓄積・統合:収集したデータを1つのデータベースに統合し、蓄積する

分析:蓄積された非構造化データを分析して、利用できるデータに分析する

可視化:分析したデータをBIツール(Business Intelligence)やアプリケーションを利用して可視化する

本テーマでは収集、蓄積・統合に主眼を置き、分析、可視化時に高速にデータを出力することができるか、より少ない容量で蓄積できるかなどの問題について考察をしていきます。

想定する企業(前提条件)

次回以降ではオンプレミスRDBでのビッグデータの蓄積技術を考察するにあたり架空の企業を想定して考察を実施していこうと思います。

具体的には以下のような条件を持つ企業を想定して、年間数テラバイト程度のデータを蓄積した場合にどのような問題が起こるかを考えていきます。

  • 製造業の企業
  • 全国に10箇所の生産ライン工場を持つ
  • 工場は24時間稼働
  • 工場で稼働するセンサのデータを収集し、長期的(10~20年)にデータを蓄積し、効率的な稼動を分析するためにデータを利用したい
  • データは非構造化データ
  • 収集するセンサデータの生成頻度は1分とし、センサの数は3000個/1工場
  • 工場のシステムと接続するため、セキュリティ面からオフライン環境(インターネット接続はしない)とする

おわりに

今回は第1回目ということで、ビッグデータの概要と考察の前提までとなり、技術的な内容には触れませんでしたが、次回以降に具体的に検証・考察を行っていきたいと思います。