目次
はじめに
2010年代からビッグデータというキーワードがトレンド化し、様々な企業で大量なデータを蓄積し、ビジネスに活かす動きが活発化しました。
多量データの蓄積~分析・可視化においてクラウド利用が進む一方で、セキュリティに対する懸念等で日本企業はクラウド利用に抵抗を感じており(「Oracle Autonomous Data Warehouse Cloud(ADWC)の機能調査開始について」を参照)、オンプレミスでのデータ蓄積を要望されることもあります。
また、既存のシステムとの連携を要望されることもあり、大量データを取り扱いやすいNoSQL(Not Only SQL:RDB以外のデータベース)ではなくRDB(Relational DataBase:関係データベース)を選定せざるを得ないことがあります。
ビッグデータとは
そもそもビッグデータとはどういったものか。
ビッグデータとは単純に多量のデータというだけではなく、以下の3つの「V」が特徴的となります。
- Volume:多量
- Valiety:多様性
- Velocity:流動性
Volume:多量は、いわずもがなな感じはしますが多量のデータです。一般的には数テラバイト(1,000ギガバイト)~数ペタバイト(1,000,000ギガバイト)以上がビッグデータとして取り扱われているのではないでしょうか。
Valiety:多様性とは様々なデータの種類を指しています。ソーシャル・メディアデータや購買情報などのオペレーションデータ、機械のセンサから収集したセンサデータ、サーバのログデータなど多種多様なデータです。SNSやIoTなどインターネットが広範囲で利用されるようになって、データの多様性も高まっているようです。
ビッグデータ利用の流れ
一般的にビッグデータを利用するまでの流れとして、「収集」、「蓄積・統合」、「分析」、「可視化」を経て、ビッグデータをビジネスに活用する形にすることが出来ます。
収集:データを収集し、データベースへの登録を行う
蓄積・統合:収集したデータを1つのデータベースに統合し、蓄積する
分析:蓄積された非構造化データを分析して、利用できるデータに分析する
可視化:分析したデータをBIツール(Business Intelligence)やアプリケーションを利用して可視化する
想定する企業(前提条件)
次回以降ではオンプレミスRDBでのビッグデータの蓄積技術を考察するにあたり架空の企業を想定して考察を実施していこうと思います。
具体的には以下のような条件を持つ企業を想定して、年間数テラバイト程度のデータを蓄積した場合にどのような問題が起こるかを考えていきます。
- 製造業の企業
- 全国に10箇所の生産ライン工場を持つ
- 工場は24時間稼働
- 工場で稼働するセンサのデータを収集し、長期的(10~20年)にデータを蓄積し、効率的な稼動を分析するためにデータを利用したい
- データは非構造化データ
- 収集するセンサデータの生成頻度は1分とし、センサの数は3000個/1工場
- 工場のシステムと接続するため、セキュリティ面からオフライン環境(インターネット接続はしない)とする