のた犬のうまい猫めし

どら猫が作る、のた犬のための飯、略称、どら飯について語りつつ、各種技術、経済系セミナーに参加した報告、OSSいじってみた等のネタを入れていきます。更新情報はtwitterの@nota_inuにて。

db tech showcase 2014 Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera プリセールスソリューションアーキテクト嶋内翔氏

#dbts2014


db tech showcase 2014 Tokyo 「ビックデータプラットフォームをClouderaEnterpriseで実現する」Cloudera プリセールスソリューションアーキテクト嶋内翔氏

db tech showcase 2014 Tokyo:
http://www.insight-tec.com/dbts-tokyo-2014.htmlTwitterハッシュタグ:#dbts2014

 

前置き、Clouderaについて

  • 嶋内氏:最初の日本人社員。

  • Cloudera:OracleYahoo!facebookGoogle社出身の社員により設立された。従業員700人以上。Clouderaサポート等。
  • この30年でデータが変化。データ集積&レポートの時代から、ビジネス全体でのデータの組み合わせ、即座の質問、リアルタイムアプリケーションへ。
  • 1980年は計算にデータを送る。プロセス中心、構造化データがメイン。重要なデータのみ。今は、データに計算を送る。すべてのデータを利用、多層構造、あらゆるデータ、社内外データへ。データがある場所に計算プログラムを送って計算する必要がある。
  • 以前はストレージのコストが高く、データがあったとしても事前処理、遅い変換、変換によるデータの欠如が発生。分析側としても既存システムへの負荷、終わらない処理。複雑なアーキテクチャ。たくさんの専用システム。これからは安いストレージで、あらゆるソースから、オリジナルデータで、すべての分析に1つのデータソース、変換データの永続化、早く、シンプルな検索、スキーマオンリード、要求を待たせない。マルチワークロード分析基盤。データの共有、複数の処理。→エンタープライズデータハブ。
  • コモディティサーバを大量に並べ、分析、検索など様々なワークロードを行う。ほかのパートナーと協力し、セルフサービスBI、データ探索、可視化、リスク分析、不正回避、コンプライアンス、360度顧客ビュー、リコメンドエンジン、処理と分析、多層構造データ、インプレース分析、スケーラビリティ、柔軟、高いコストパフォーマンス、管理しやすく、オープンアーキテクチャ……。
  • OSSエンタープライズデータハブで不可欠な要素。安いだけではなく、データの保管が見える。中がどうなっているかわかる。バッチ処理、分析SQL検索エンジン機械学習、ストリーム処理、サードパーティソフトウェアなどを動かせる。

 

Clouderaデータマネジメントプラットフォーム

  • Clouderaのデータマネジメントプラットフォーム:コンプライアンス(認証、認可、監査、RBAC)。オープンスタンダード(100%オープンのApacheライセンスプラットフォーム、サードパーティフレームワークへの拡張性、標準API)。統合(ストレージシリアライゼーション、分散ストレージ、メタデータ、リソース管理)。
  • ストレージ部分:きちんとしたものを準備するのが必要不可欠。Hadoop HDFSHadoop用分散ストレージコンポーネント。柔軟性、拡張性、耐障害性、オープン。あらゆるデータを入れられる。すべてのデータフォーマットのためのストレージ。1つ壊れても復旧できるし入れ替えられる堅牢さ。最近は深刻な障害は全くないので安心できる。ここ近年は深刻なものは起きていない、信頼できるアーキテクチャ。可用性は数年前に解決。大量に重要データを保存するにはこれ以上ないほど堅牢になっている。オープンなので中身が見える。ロックインされることはない。
  • データストア:HBase。小さなファイルを高速化したい場合はHDFSは向いていない。HBaseがその部分を補完。システム連携するときに直接ログを入れる場合HBaseにPUT。HBase上の小さなデータを取り出す場合にはGETメソッド
  • データの取り込み:ApacheSqoop(スクープと読む。RDBMS/DWHからのインポート)、ApacheFlume(フルームと読む。ログ収集)を使ってHadoopに移動。全世界中からFlumeを集め、HDFSで加工、などができ、実績がある。1000台くらいの規模なら可能。
  • バッチ処理:大量のデータをロードし処理するのに安定。
  • インタラクティブSQL:素早くデータを検索、分析するアナリスト向けBI。今すぐ、のニーズに対応。何TBを数秒でできるように。
  • 検索:SQLがわからなくても対応できるユーザフレンドリ。検索のキーワードだけで結果を出せる検索エンジン
  • NoSQL:別システムとのやりとり。大量かつリアルタイムな単一イベントクエリ。リアルタイムパターン認識(顔認証など)。高速ルックアップを簡単に行える。
  • ストリーム処理:ずっと常に分析し続けたい。ストリームでトレンドが流れてくるのを見て予測分析をしたり。
  • 機械学習:高度な分析。データサイエンティストのための高速いてレーションモデル。
  • リソース管理:YARN(ヤーンと読む)。バッチ処理をしているから検索ができない、とかがないように。同じMapReduce処理で部門ごとにリソースを分けるとか。動的リソース管理、複数のエンジンとワークロードをサポート。
  • MapReduce:開発者のためのバッチ処理。結構書くのが大変なので開発者向け。敷居は高いツールHadoop分散処理の基本。大量のサーバの上で分散処理。あらゆるデータにあらゆる処理。高い柔軟性。拡張性の高さ。耐障害性で業務の継続。アクセス容易性(Hive、Pig、Crunchなどの独自言語)。MapReduceを基本にツールが動いている。オープンで何をしているか明らか。
  • Cloudera Search:万人のためのOSS全文検索エンジンHadoopに対してググれる。全文検索エンジンとそれを作るツール群。検索エンジンにはSolr(デファクトスタンダード)。検索インデックス作成もバッチ、リアルタイム、Hbaseインデックス化など便利な機能。セキュリティも充実。コンプライアンス準拠のセキュリティ。今問い合わせが多くなっている。自社のHadoopをどうサーチするか。Hadoop=MapReduceの時代ではなくなってきた。ビジネスユーザの皆に提供するには一考の価値あり。
  • Cloudera Impala(インパラと読む):もっとも普及しているOSSHadoop用分析エンジン。慣れ親しんだインタフェース(SQL、BIツールと連携)、並列性が高く高速。(一番早い。)Hbaseとかのツールと連携。
  • Apache Spark(スパークと読む):MapReduceをさらに改善。データサイエンティストのためのOSSインメモリ処理。メモリ上で扱いディスクを使わないのをメインに考えている。MapReduceに比べて書きやすい工夫がされている。サブプロジェクトがたくさんあり、単なるバッチ処理だけではなくストリーム処理、機械学習もできる。セキュリティも考慮。たbぇあう、sasなども使える。数百ものパートナーが認証を受けている。
  • Cloudera Manager:すべてのための一つの統一ビュー。ボタン一つでHadoopインストール、起動、停止。インテリジェントな機能でログ解析、アラートを上げる。メトリクスのグラフ化。手間がかかる作業もローリングリスタートのテストだけ。ディザスタリカバリ機能でほかの地域に常時転送。
  • Cloudera Navigator:データ監査ソフトウェア。いつだれがどのデータにたいしてどのような操作を行ったかを記録。データの系統調査(データリネージ機能)で可視化。特定のテーブルのカラムに個人情報があった場合、MapReduce情報を得てどうImparaクエリを投げどう流れたかを可視化でき、漏えいを確実にチェックできる。