Developers Summit (通称デブサミ) 2018 Summer【C-1】にて登壇しました。 「いかにDataとOpsを繋げるか」というテーマで担当現場での取り組みや学びについてお伝えしました。
ちなみにDataOpsというタイトルを採用した背景については、会社のメンバーズブログに寄稿したので、そちらも合わせてご参照ください。 機会があれば「なぜトップダウンではなくボトムアップ型・プル型のデータ組織が重要なのか」についてもどこかで解説したいものです。
Developers Summit で登壇してきました! - リクルートテクノロジーズ メンバーズブログ
08/23追記
そういえばデブサミのアンケート満足度No.1だったらしい!
— ゆずたそ (@yuzutas0) 2018年8月23日
ごく一部の経験者にしか響かないだろうなと思っていたので、目に見える形で評価いただけたのは嬉しかったですね。
ご本家デビューしました!
— ゆずたそ (@yuzutas0) 2018年8月17日
"yuzutas0 spoke at the Developers Summit 2018 in Japan on the topic of connecting Data and Ops."
“DataOps Goes Global” by @datakitchen_io https://t.co/qOCXplAPjR
もくじ
事業のグロースを支えるDataOpsの現場
セッション概要
データの民主化、データ基盤の構築、分析チームの立ち上げ、機械学習プロジェクト。世を見渡せばキラキラした事例に溢れています。 しかし、いざ自分たちでやろうとしてもなかなか上手くいきません。理想に辿り着くためには、泥臭い過程が存在します。
本セッションでは「登り方や道のりを知りたいんだ!」という方に向けて、DataOpsの観点から案件・システム・プロセス・文化・組織をエンジニアリングしてきた現場 のリアルをご紹介します。 データ活用に携わる全てのエンジニアが今すぐ行動するためのヒントを持ち帰っていただければ幸いです。
スライド
以下、エモい部分を抜粋。 具体的なエピソードはぜひスライドでご参照ください。
データ活用案件による価値創出
効率的なプロセス
データ抽出・集計業務
機械学習システムの構築
使われる基盤システム
安定したチーム運営
データの民主化(組織文化)
質疑応答セッション(一部抜粋&加工)
Q1. やるべきことが多すぎる問題について
Q1. コンサルタントとしてクライアント企業のデータ活用を支援する立場です。 データの収集から活用、さらには継続的な運用・改善と、やるべきことが多岐に渡りますが、これらを一手に引き受けるのは非常に大変だと感じています。 どのように工夫なされていますか。
A1. 1人が全てを担うのではなく、得意な人に得意な部分をお願いする、という形で案件を差配しています。 また、スライドにあるように「データの民主化」を重視しており、業務を担っている現場の部署が試行錯誤できるように支援しています。
Q2. データ基盤のサービスレベルについて
Q2. サービスレベルの設計や運用方法について詳しく教えてください。 サービスレベルというとレスポンスタイムや稼働率のことですか。
A2. データ基盤というサービスが、社内の利用者に対して約束する品質レベルが、データ基盤のサービスレベルとなります。 スライドにあるように「誰がどのようにデータを使っているか」というユースケース観点で期待事項を定義します。 夜間バッチがこけてデータの疎通が失敗したら、翌朝に出社した人がデータを見ることができないので、サービスレベル違反です。 データパイプライン上のどこかで問題が起きているはずなので、その不具合をシューティングしたり、リトライのような対応作業(ワークアラウンド)を実施します。
Q3. データ集めが大変という問題について
Q3. データ活用していこうということで、同じように部署を立ち上げて任された立場です。 いざ始めてみるとデータを集める部分で苦労しています。 オフラインが絡む業種ですので、紙で管理しているデータが多いです。 OCRで読み込むという話もあったのですが、そもそも該当の紙を集めるのが大変です。
A3. 各論としては、POSのようなシステムで管理するといった話になりそうですが、かなり大きな経営判断・業務改革になりそうですね。 スライドですとSRE(ログ収集のシステム構築)やオフショアリング(手入力業務を外部委託する)といったトピックと通じるものがありそうです。
本日の内容からお伝えできる部分があるとすれば「小さく試す」ということでしょうか。 全部のデータを最初から集めるのは大変ですが、目的に必要なデータをプルベースで取得することはできるはずです。 最初に集めようとしていたデータの2割だけで、目的の8割は達成できるかもしれません。 例えば、全国の結果は分からなくても「この地域のデータを集めてこういう予測ができるようになった」といった具合です。 より短いリードタイムで小さな成功体験(あるいは失敗体験)を積み重ねることで、強いデータ活用組織になっていくのではないかと私は考えています。
実況・ご意見
いわゆる「機械学習をやってみました」みたいなバズりやすいタイトル・内容ではないので、どこまで関心を持っていただけるかは不安でした。 蓋を開けてみると、第一線でご活躍されている方々を中心として、多くの反応をいただくことができました。 本当に伝わるべき人たちには伝わったのではないかと安心しています。
デブサミ2018夏「事業のグロースを支えるDataOpsの現場」へのフィードバック - Togetter
余談
デブサミ史上最多のスライド枚数になった、という認識でいます[要出典]。 狂気の枚数でクレイジー枠を受賞しようとしたのですが、上には上がいました。 おそらく今回のハイライトはとあるセッションで出てきたこちらの名言ですね。
scikit-learnは甘え、一部のPythonistaにしか受けてない感 #devsumi #devsumiC
— Shinichi Nakagawa (@shinyorke) 2018年7月27日
タイムラインが「scikit-learnは甘え」というパワーワードでざわついてるの草
— tdual🍉🎅<うめぇwww (@tdualdir) 2018年7月27日
なお、他の方々の登壇資料は以下のページにまとまっています。 Cookpad勢はしっかりしているなぁ、SILVER EGG勢はぶっ飛んでいるなぁという印象。
Developers Summit 2018 Summer、講演関連資料まとめ:CodeZine(コードジン)
登壇した感想
デブサミでお話した人に、「その節はありがとうございます」と言われ本当に覚えていなくて申し訳なかったんですが、どうやら一度 1-on-1 ミーティングをして、その時になにか良いアドバイスをしたらしい。数年前の自分、Good Jobじゃん。
— Takahiko Ito (@takahi_i) 2018年7月28日
1つ目。自分にとって1つの節目となりました。 実は、3年前に同じ枠で当時の上司が登壇しており、今回の発表はそのオマージュとなっています。 また、4年前に(一方的に)お世話になった方に、同じ登壇者として控え室で挨拶することもできました。 偉大な先達たちに追いつけたとは口が裂けても言えないですが、1-2歩くらいは近付けたのではないか。 そう思えた会でした。いや、せいぜい0.5歩かな……。
2つ目。この事例はAさんが頑張っていたなぁとか、このノウハウはBさんに教えてもらったなぁとか、思い出しながら資料をまとめました。 結果としてSpecial Thanksが100人近くなってしまいました。 1人でも欠けていたら全然違う状況になっていたはずなので、間違いなくSpecialにThanksしています。 1人1人の活躍をありありと思い出すことができて、本当に多くの人たちの力を合わせてやってきたんだなぁと実感しました。 チャンスを与えてくださった人、手助けいただいた人、実際に業務を担っている人に対して、感謝の気持ちしかありません。
3つ目。他の発表を聞いたり、参加者と話をしてみて、改めてDataOpsの視点は必要だと思いました。 このタイミングでこのスライドを公開できたことは、社会的にも有意義なはずだと思いますし、自分がその担当者となれたことを誇りに思います。 今はまだ一部のアーリーアダプターにしか理解されない(そもそも興味を持っていただけない)内容です。 しかし、これから国内各社でデータ活用が進むと、多くの方々が似たような壁にぶつかるはずです。 その時に参考事例として何かお役に立てたら良いなぁと期待しています。
4つ目。この発表の直後に、期待値の高かったプロジェクトが1つ失敗してしまい、本当に難しいなぁと思いました。 まだまだ周囲から理解されない場面も多かったり、見立て通りに上手くいかないことだらけです。正直めちゃくちゃ逃げ出したいです。 一方で、逃げ出したいくらい難しい問題をいかにハックするか、いかに企てを画(えが)くか、もっと楽しんでいける自分でありたいとも思っています。
最後に
関係者の皆さま、参加者の皆さま、運営者の皆さま。 素敵な機会を与えていただき、誠にありがとうございました。