セプテーニ・オリジナル様が主催する新宿Geek Lounge#4 分析基盤MeetupでLTをしました。
スライド
『データ基盤を支える民主化とサービスレベル』
「いかにビジネス価値を最大化し続けるか」という本来の目的から、データ基盤1を見直すキッカケになればと思います。 PyCon JP 2017でベストトークアワード優秀賞を受賞した発表(構築編)の続き(運用編)をチラ見せです。
データ基盤は使われてこそ意味がある
データの民主化
- 事務スタッフ(非エンジニア)がBigQueryを叩いています!すごい浸透!
- チームごとの民主化状況をモニタリングして必要なアクションを実施しています
- 民主化には3つの壁があることが分かりました:局所化の壁、自走の壁、改善の壁
- どんなチームでも何かしらの施策を打つ → 効果測定を切り口にしてデータ活用を促したり
- 複数人でモニターを囲んでモブデータ分析をやると導入しやすかったり
- 案件の前工程(仮説・効果見立て)と後工程(検証・効果測定)のプロセスに組み込んだり
- SQLレシピやデータ辞書を用意したり
- 分析相談やレビュー依頼を受けたり
サービスレベル
サービスレベルという言葉については上記エントリーで説明しています。 日本語で一番分かりやすく、なおかつ実務に使えるように説明した自信があります。
データ基盤に関するあらゆる意思決定はサービスレベルに依存します。
- データの用途・利用者ごとに期待されている品質を明文化する
- SLAが脅かされるときのオペレーションを定義する
- 対応スピード
- 補償・代替手段
- ワークアラウンド(回避策)
- レポーティング、記録、ポストモーテム
- 毎スプリント終了時のレトロスペクティブ(ふりかえり)でSLA・OLA自体を見直す
これだけ聞くと伝わりにくいですが「使っていない分析レポートがクリーニングされずに大量に残っている話」が直前にあったのを受けて 「使わないツールを保守し続けるのは過剰品質です」「そういう過剰品質を定期的に見直して是正するのがサービスレベルのマネジメントです」という話をしました。 実際そのように運用しています。
他の発表
- Kafka/Fluentd/Sparkを用いたデータ分析基盤の運用話 by @kimutanskさん
- AWS 上での Spark 環境構築・運用(資料非公開) by @k4200jpさん
最近のApache Sparkエコシステムとランタイムの話IoTとSpark(資料非公開) by @imai_factoryさん- Tableau serverを1年間運用して by @stranger_s_sさん
詳しくは以下のブログでレポートされています。
懇親会で話したこと
私に声を掛けてくださった方々の多くはデータ基盤を構築したばかりでした。 その先の運用イメージがまだ見えていなかったので、先行事例を聞けて良かったと仰っていました。
また、運用フェーズこそが本番なのに、知見があまり世に出回っていないという話にもなりました。
- やるべきことをきちんと実施しているところが少ないから
- 新システムの構築に比べてエンジニアにとって華がない(ように見える)から
といった意見を伺いました。
一方で、華がないから話したがらないという割には
- 作ったデータ基盤が身内にしか使われない
- 役に立っているか疑わしいBIツールを保守し続けている
- データ分析したけど施策には繋がらなかった
これらの辛さは誰もが経験しており、運用の苦労話はつい気になって色々質問したくなってしまう、とのことでした。
おもったこと
いかにデータ活用や基盤運用の辛さを乗り越え、いかにビジネス価値の継続的な向上に役立てるか。 それができれば日本の産業界はもっと上手くデータを活用し、国内経済を活性化していけるのではないか、と考え始めています。
運用支援のドキュメントやツールをもっと充実させて、ゆくゆくはOSSとして公開していきたいという気持ちがあります。 一緒にやっていけるチームメイトを絶賛募集中です。お気軽に@yuzutas0までお声掛けください。
最後に
運営の方々。発表者の方々。参加者の方々。 この度は貴重な機会をいただき、誠にありがとうございました。 ぜひまた機会があればよろしくお願い致します。
The DevOps ハンドブック 理論・原則・実践のすべて
- 作者: ジーン・キム,ジェズ・ハンブル,パトリック・ボア,ジョン・ウィリス,榊原彰,長尾高弘
- 出版社/メーカー: 日経BP社
- 発売日: 2017/06/22
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る