db tech showcase 2014　Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera　プリセールスソリューションアーキテクト嶋内翔氏

#dbts2014

db tech showcase 2014　Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera　プリセールスソリューションアーキテクト嶋内翔氏

db tech showcase 2014 Tokyo：
http://www.insight-tec.com/dbts-tokyo-2014.html、Twitter ハッシュタグ：#dbts2014

前置き、Clouderaについて

嶋内氏：最初の日本人社員。
Cloudera：Oracle、Yahoo!、facebook、Google社出身の社員により設立された。従業員700人以上。Clouderaサポート等。
この30年でデータが変化。データ集積＆レポートの時代から、ビジネス全体でのデータの組み合わせ、即座の質問、リアルタイムアプリケーションへ。
1980年は計算にデータを送る。プロセス中心、構造化データがメイン。重要なデータのみ。今は、データに計算を送る。すべてのデータを利用、多層構造、あらゆるデータ、社内外データへ。データがある場所に計算プログラムを送って計算する必要がある。
以前はストレージのコストが高く、データがあったとしても事前処理、遅い変換、変換によるデータの欠如が発生。分析側としても既存システムへの負荷、終わらない処理。複雑なアーキテクチャ。たくさんの専用システム。これからは安いストレージで、あらゆるソースから、オリジナルデータで、すべての分析に1つのデータソース、変換データの永続化、早く、シンプルな検索、スキーマオンリード、要求を待たせない。マルチワークロード分析基盤。データの共有、複数の処理。→エンタープライズデータハブ。
コモディティサーバを大量に並べ、分析、検索など様々なワークロードを行う。ほかのパートナーと協力し、セルフサービスBI、データ探索、可視化、リスク分析、不正回避、コンプライアンス、360度顧客ビュー、リコメンドエンジン、処理と分析、多層構造データ、インプレース分析、スケーラビリティ、柔軟、高いコストパフォーマンス、管理しやすく、オープンアーキテクチャ……。
OSSはエンタープライズデータハブで不可欠な要素。安いだけではなく、データの保管が見える。中がどうなっているかわかる。バッチ処理、分析SQL、検索エンジン、機械学習、ストリーム処理、サードパーティソフトウェアなどを動かせる。

Clouderaデータマネジメントプラットフォーム

Clouderaのデータマネジメントプラットフォーム：コンプライアンス（認証、認可、監査、RBAC）。オープンスタンダード（100%オープンのApacheライセンスプラットフォーム、サードパーティフレームワークへの拡張性、標準API）。統合（ストレージシリアライゼーション、分散ストレージ、メタデータ、リソース管理）。
ストレージ部分：きちんとしたものを準備するのが必要不可欠。Hadoop HDFS。Hadoop用分散ストレージコンポーネント。柔軟性、拡張性、耐障害性、オープン。あらゆるデータを入れられる。すべてのデータフォーマットのためのストレージ。1つ壊れても復旧できるし入れ替えられる堅牢さ。最近は深刻な障害は全くないので安心できる。ここ近年は深刻なものは起きていない、信頼できるアーキテクチャ。可用性は数年前に解決。大量に重要データを保存するにはこれ以上ないほど堅牢になっている。オープンなので中身が見える。ロックインされることはない。
データストア：HBase。小さなファイルを高速化したい場合はHDFSは向いていない。HBaseがその部分を補完。システム連携するときに直接ログを入れる場合HBaseにPUT。HBase上の小さなデータを取り出す場合にはGETメソッド。
データの取り込み：ApacheSqoop（スクープと読む。RDBMS/DWHからのインポート）、ApacheFlume（フルームと読む。ログ収集）を使ってHadoopに移動。全世界中からFlumeを集め、HDFSで加工、などができ、実績がある。1000台くらいの規模なら可能。
バッチ処理：大量のデータをロードし処理するのに安定。
インタラクティブ SQL：素早くデータを検索、分析するアナリスト向けBI。今すぐ、のニーズに対応。何TBを数秒でできるように。
検索：SQLがわからなくても対応できるユーザフレンドリ。検索のキーワードだけで結果を出せる検索エンジン。
NoSQL：別システムとのやりとり。大量かつリアルタイムな単一イベントクエリ。リアルタイムパターン認識（顔認証など）。高速ルックアップを簡単に行える。
ストリーム処理：ずっと常に分析し続けたい。ストリームでトレンドが流れてくるのを見て予測分析をしたり。
機械学習：高度な分析。データサイエンティストのための高速いてレーションモデル。
リソース管理：YARN（ヤーンと読む）。バッチ処理をしているから検索ができない、とかがないように。同じMapReduce処理で部門ごとにリソースを分けるとか。動的リソース管理、複数のエンジンとワークロードをサポート。
MapReduce：開発者のためのバッチ処理。結構書くのが大変なので開発者向け。敷居は高いツール。Hadoop分散処理の基本。大量のサーバの上で分散処理。あらゆるデータにあらゆる処理。高い柔軟性。拡張性の高さ。耐障害性で業務の継続。アクセス容易性（Hive、Pig、Crunchなどの独自言語）。MapReduceを基本にツールが動いている。オープンで何をしているか明らか。
Cloudera Search：万人のためのOSS 全文検索エンジン。Hadoopに対してググれる。全文検索エンジンとそれを作るツール群。検索エンジンにはSolr（デファクトスタンダード）。検索インデックス作成もバッチ、リアルタイム、Hbaseインデックス化など便利な機能。セキュリティも充実。コンプライアンス準拠のセキュリティ。今問い合わせが多くなっている。自社のHadoopをどうサーチするか。Hadoop=MapReduceの時代ではなくなってきた。ビジネスユーザの皆に提供するには一考の価値あり。
Cloudera Impala（インパラと読む）：もっとも普及しているOSSのHadoop用分析エンジン。慣れ親しんだインタフェース（SQL、BIツールと連携）、並列性が高く高速。（一番早い。）Hbaseとかのツールと連携。
Apache Spark（スパークと読む）：MapReduceをさらに改善。データサイエンティストのためのOSSインメモリ処理。メモリ上で扱いディスクを使わないのをメインに考えている。MapReduceに比べて書きやすい工夫がされている。サブプロジェクトがたくさんあり、単なるバッチ処理だけではなくストリーム処理、機械学習もできる。セキュリティも考慮。たｂぇあう、sasなども使える。数百ものパートナーが認証を受けている。
Cloudera Manager：すべてのための一つの統一ビュー。ボタン一つでHadoopインストール、起動、停止。インテリジェントな機能でログ解析、アラートを上げる。メトリクスのグラフ化。手間がかかる作業もローリングリスタートのテストだけ。ディザスタリカバリ機能でほかの地域に常時転送。
Cloudera Navigator：データ監査ソフトウェア。いつだれがどのデータにたいしてどのような操作を行ったかを記録。データの系統調査（データリネージ機能）で可視化。特定のテーブルのカラムに個人情報があった場合、MapReduce情報を得てどうImparaクエリを投げどう流れたかを可視化でき、漏えいを確実にチェックできる。

のた犬のうまい猫めし

どら猫が作る、のた犬のための飯、略称、どら飯について語りつつ、各種技術、経済系セミナーに参加した報告、OSSいじってみた等のネタを入れていきます。更新情報はtwitterの@nota_inuにて。

db tech showcase 2014　Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera　プリセールスソリューションアーキテクト嶋内翔氏

db tech showcase 2014　Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera　プリセールスソリューションアーキテクト嶋内翔氏

前置き、Clouderaについて

Clouderaデータマネジメントプラットフォーム

db tech showcase 2014 Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera プリセールスソリューションアーキテクト嶋内翔氏

前置き、Clouderaについて

Clouderaデータマネジメントプラットフォーム

db tech showcase 2014　Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera　プリセールスソリューションアーキテクト嶋内翔氏