TIL blog

技術ネタ, その他学んだことのアウトプット用

GTC Japan 2017 参加メモ

今更感ありますが, 社内ブログに書いたネタを使いまわしました。

イベントの内容はこんな感じで, 2日目13日の方にお邪魔しました。 手元のメモを元に気になったポイントなどをまとめます。

基調講演

ディープラーニングの本番運用への課題を解決する「ABEJA platform」

データ分析コンサルっぽい話でした 以下memo

  • Abejaは国内で唯一nvidiaから出資受けている

  • 現状, アノテーション作業を付加価値高いデータサイエンティストの方がやっている

  • アノテーションデータがどれだけ必要かがわからない

  • 精度が何%あれば成立するのか品質の評価のすり合わせが難しい

  • annotation用のソフトウェアを制作

    • annotation以外でも人力AIでデータ貯めるためにオペレータが使用するソフトを内製している会社は結構あるイメージ。名刺のあの会社とか

AIタクシー, リアルタイム人口統計データを用いた深層学習によるタクシー需要予測

  • 研究概要
  • 今回講演のメディアまとめ

  • 現状の課題

    • 新人ドライバーは需要の高いエリアがわからない
    • ベテランドライバーは土地勘のないエイアから得意エリアに帰ろうとしてしまう
  • 使用データについて

    • 携帯電話の基地情報データ500mグリッドで推定
    • docomo携帯電話所持率に合わせて補正した値を利用
    • データは30分毎にバッチ取得
  • 用いた手法について

  • 高次元の特徴量の抽象化のためにstacked denoising AEを使用, AEで抽象化されたデータをpredictorに入れて30分後の需要予測

  • ParameterOptimization

    • Hyperopt でrandom search
  • relu, batch normarization, adamを使用
  • 計算環境

    • DGX-1 P100 16GB * 8
  • 工夫

    • 他地点のデータを取り入れることで汎化性能を高めた
    • タクシーデータ, 人口データ, 気象データを利用
  • 気になった点

    • 他の手法との検討比較がなかった。そもそもdeep でやる必要あるのか?
    • グラフをパット見た感じdailyのseasonalityの影響が大きい。周期はyearlyで考慮したとのことだがその他は?
    • 研究, 計算コストと実際の売上への寄与

機械学習による視覚情報理解

東大原田先生の公演 研究室の最近のDL関係の成果報告

今回の発表テーマは以下の3つ

  • webDNN
  • Neural renderer
  • between class learning

以下で概要をまとめますが, Deepの話あまり詳しくないのでテキトーな箇所もあると思うので, 詳細気になった方は元の論文読んでください。

webDNN

  • 概要

紹介ページの内容をGoogle翻訳に突っ込んだだけ

ディープニューラルネットワーク(DNN)は、多くのアプリケーションで使用することに大きな注目を集めています。しかし、多くの計算資源が必要であり、GPGPUなどの実行環境に基づくハードウェアアクセラレーションを設定するには膨大な処理が必要です。したがって、エンドユーザにDNNアプリケーションを提供することは非常に困難です。 WebDNNは、Webブラウザをインストール不要のDNN実行フレームワークとして使用することで、この問題を解決します。このフレームワークは、訓練されたDNNモデルをモデルデータを圧縮し、実行を加速するように最適化し、WebAssemblyやWebGPUなどの新しいJavaScript APIを使用してゼロオーバーヘッド実行を実現します。実証的評価では、200倍以上の加速を達成しました。

  • PCなどのカメラで取り込んだ画像をリアルタイムで変換, 分類 ONNXにも対応
  • 実際に以下のページで試せる MIL WebDNN

    • Neural Style Transfer
      上記ページのデモでは葛飾北斎風の絵に変換可能

    • ResNet50
      学習済みResNetによる物体識別

  • OSSとして公開されている :ideograph_advantage: https://github.com/mil-tokyo/webdnn

Neural renderer

  • 概要 2d画像から, 3dモデルへのレンダリングをDNNで実現 既存のBoxel baseよりスムーズに3dモデルを再現

著者による紹介ページ

  • 3dモデルのレンダリングをDNNで行うにあたって微分不可能な領域が存在するため, backpropの計算が困難。提案手法ではblurしてから微分。詳細は元論文fig.2, fig.3, chap.3あたりを参照

  • 3d版deep dreamなどが紹介されていた。

between class learning

paper

(概要) 画像識別のための新しい学習法。 CIFAR10, CIFAR100などでShake-Shake Regularizationを拡張することでSOTA達成

ベースのアイデアはMITとFAIRが出したmixupと同様。(ref. unsky/mixup: mixup: Beyond Empirical Risk Minimization )

(雑な説明) 異なる2つのクラスt1,t2に属する, imageの特徴x1, x2を r~U(0,1) でmixinして, 特徴を (1-r)x1+rx2, クラスを (1-r)t1+rt2 として学習を行う。

(なぜうまく行ったか) CNNは内部表現として画像をwaveformでも扱っているため, 音声識別におけるmixinと同様に良い作用を及ぼしたと考えられる。
(元論文3.2節 ※この辺だいぶ理解が怪しいです)

ポスターセッション

富士通, デンソー, Mathworks, Brainpad, ABEJAあたりを聞きに行きました。

ABEJAのmachine learningのモデルを管理するプラットフォームはなかなか良さそうでした。公演ではDeep押しでしたがその他のモデルも管理できる模様

その他

  • 人多すぎて疲れました。Deeplearningでいい感じに動線管理してほしい。。。
  • ハードよりの方の話が多かったので新鮮でした。
  • NVIDIA Carかっこいい