TIL blog

Data Mining(Machine Learning) Engineer 3年目 技術ネタ, その他学んだことのアウトプット用

Redash meetup #5 参加レポート

TL;DR;

4/23 にRetty で行われた Redash Meetup にお邪魔してきたので, 参加レポートもどきの手元のメモ公開させていただきます。。

イベントURL

redash-meetup.connpass.com

Twitter ハッシュタグはこちら

twitter.com

Redashとは

Redash とは Python製の の OSS/SaaS のBIツール (Tableau, Looker などの仲間) いろいろなデータソース(BQ, Athena, MySQL, SpreadSheet)に対して, ユーザライクなinterfaceを提供して可視化などを行うツールです。

自分も普段の業務で仮説検証のための集計やABテストのための集計などで日頃からお世話になっています。

以下, 登壇内容についてです。

OP talk

参加者へのアナウンスで拍手のお願いがあったのが斬新でした 笑 良さそうなので主催側の勉強会でも取り入れたいです。

改めて振り返る Redashの使いどころ (ユニトーン 有田)

  • 有田さんはOSS版のRedash のメンテナの一人
  • 会場内でver7.0 使っている人3割くらい
  • バージョンアップの歴史, 国内で話題になったイベントの歴史などの振り返り

Redash の良さの振り返り

  • OSSかつwebベース
    • ユーザーフレンドリ
    • クエリをURLで共有できる
  • 様々なデータベースの集計クエリが集約される
    • クエリが集約されるので, 秘伝のクエリが生まれにくい
  • hackable
    • python data source利用, クエリランナー拡張でSQLだけではないデータ処理が可能
    • OSSだから自分たちで手を入れられる
    • Query をVCS管理するより, APIで撮ってきた加工のプロセスをVCS管理するほうが楽 <- わかる

クエリランナー については存在を全然知らなかったです。

登壇者の有田さんがブログを書いているようなので, あとで読ませていただこうと思います。

ariarijp.hatenablog.com

Retty における Redash の活用事例 (Retty 田中 さん)

www.slideshare.net

Retty さんの取り組みに関する過去の技術ブログ記事はこちら

engineer.retty.me

  • データ量が増加, ステークホルダの増加, 意思決定難易度の上昇から, 瞬時に多様な観点からの分析が必要なフェーズになってきた
  • Redash, DataPotal, SpreadSheet などを組み合わせて分析を行っている, それぞれの用途は以下の通り

Data Potal

  • DataPotal ではチャネル遷移の分析の可視化
  • dailyで更新させているので, ad-hoc にクエリ打たなくても気になった時に結果を見に行ける

Spread Sheet

  • 細かな数値間の確認

Redash

  • 変化を瞬時に察知するのに利用(= ログからサービスの健康診断)

時系列情報の可視化は実感としてもRedashの方がやりやすいなと思います

Redash 利用の課題感

  • 数値を見る習慣をどうやって作る?
  • ツールの使い分け
  • Scheduled Query の増加に伴う実行コスト増加(Retty だとBQ利用のため辛かったよう)
    • こちらtweetしたところリプでスキャン件数事前に見れると教えていただけました :pray:

[MEMO] A/Bテストの効果測定はスプレッドシートなどで行っている, SpreadSheet, DataPotal で済むならそちらを使ったほうが効率的
[MEMO] 現状Rettyでは意思決定でのデータ活用がメインなので今後はデータを利用した機能の開発をやっていきたいそう

Redash で何を見るのか?(エブリー 島田 さん)

普段は DWH アーキテクト としてお仕事されているそう。

インフラ構成

  • インフラ構成とクエリ数紹介など
  • Spark で以下のようにETL
    • DataRake S3-> DWH TD ->DataMart Redash

上記のDataRake, DWH, Data Mart の概念の話は yuzutas0さんの記事がとてもわかりやすかったです。

yuzutas0.hatenablog.com

  • ユーザはPO, アナリスト, 機械学習エンジニア, マーケターなど

何を見るのか

実際に見ているKPI紹介
DAU, 継続率(cohort chart) からKPI treeの各構成要素の見方の紹介
例えば継続率は以下のように分解される

  • 継続率
    • 認知
    • プレファレンス
    • 配荷率

課題感

  • データガバナンス
  • SQLクエリの管理と権限設定
    • 管理という観点から言えば特にBQ使うのであれば, エンジニア的にはレビューしたい <- わかる
    • 協力会社へのデータ提供が難しい (Looker使ってみたが...)

LT1 チームの BI や可視化強化に Redash はどうかと雑談した時の話 (はてな koudenpa さん)

www.slideshare.net

BQをRedash に持ってくるのではなくて, BQの方にサービスログをembulkで持っていくのを検討中らしい。
Embulk 辛そうな話が DPCT で伺った話だと多かったが未経験なので感覚がわからないです。。。

LT2 Ruby エンジニア選ぶ Redash の好きなところ Top10 (フリーランス samemuraさん)

特に共感したのはこの辺り

  • 逆にGUI凝っていないからSQL書いて可視化までが早い
  • 他のクエリの結果を使って負荷の軽減と再利用ができる, クエリの結果がキャッシュできる
  • 管理画面が不要になる, 簡単な分析依頼ならRedash 内で完結する

感想

ユーザ側とデータエンジニア側の方両方いらっしゃったみたいでいろいろなお話が伺えて楽しかったです。 欲を言えばもう少し深い話が聞きたかったので, 懇親会があると嬉しかったかもです 笑

Redash のメジャーバージョンに追いつくまでは開催していただける ということなので, 次回も楽しみにしています!

クエリ管理の話 とか オンプレ非DockerのRedashのバージョン上げる話 とか機会あればLTなどで話したいなと思いました。