GTC Japan 2017 参加メモ

今更感ありますが, 社内ブログに書いたネタを使いまわしました。

イベントの内容はこんな感じで, 2日目13日の方にお邪魔しました。手元のメモを元に気になったポイントなどをまとめます。

基調講演

Mooreの法則の話
- CPUにおけるMooreの法則は終演を迎えつつあるが, NVIDIAのGPUは依然Mooreの法則と同様のペースで高性能化が進んでいる
NVidia Holodeck
- VR内で共同作業を行えるシステム。物理シミュレーションなども可能。
- DEMO https://youtu.be/hUsP7fsjrdg
Deep Learningにより作曲した曲のオーケストラ演奏
- AI Composer Creates Music for Films and Games – NVIDIA Developer News Center
Remedyとの共同研究による発話からの表情生成
- Nvidia and Remedy use neural networks for eerily good facial animation | Ars Technica
- 発話認識の精度向上のために表情とのマルチモーダル学習を行う話は聞いたことあったが, 逆の話も進んでいたのは知らなかった...
Tesla V100の紹介
- 対応フレームワークのベンチマークは以下
- open NMTで140倍程度高速化とのこと
Progressive GANの話
- Progressive Growing of GANs for Improved Quality, Stability, and Variation | Research
- GANによる超解像。日本語解説はこの辺
  - 【Progressive Growing of GANs for Improved Quality, Stability, and Variation】を読んだのでまとめる - St_Hakky’s blog
  - Progressive Growing of GANs for Improved Quality, Stability, and Variation · Issue #475 · arXivTimes/arXivTimes
日本企業に対してのsales talkがすごかった
🎉 More buy GPU, More save money 🎉

ディープラーニングの本番運用への課題を解決する「ABEJA platform」

データ分析コンサルっぽい話でした以下memo

Abejaは国内で唯一nvidiaから出資受けている
現状, アノテーション作業を付加価値高いデータサイエンティストの方がやっている
アノテーションデータがどれだけ必要かがわからない
精度が何%あれば成立するのか品質の評価のすり合わせが難しい
annotation用のソフトウェアを制作
- annotation以外でも人力AIでデータ貯めるためにオペレータが使用するソフトを内製している会社は結構あるイメージ。名刺のあの会社とか

AIタクシー, リアルタイム人口統計データを用いた深層学習によるタクシー需要予測

研究概要
- https://www.nttdocomo.co.jp/info/news_release/2016/05/31_00.html
今回講演のメディアまとめ
- http://monoist.atmarkit.co.jp/mn/articles/1712/18/news044.html
現状の課題
- 新人ドライバーは需要の高いエリアがわからない
- ベテランドライバーは土地勘のないエイアから得意エリアに帰ろうとしてしまう
使用データについて
- 携帯電話の基地情報データ500mグリッドで推定
- docomo携帯電話所持率に合わせて補正した値を利用
- データは30分毎にバッチ取得
用いた手法について
高次元の特徴量の抽象化のためにstacked denoising AEを使用, AEで抽象化されたデータをpredictorに入れて30分後の需要予測
ParameterOptimization
- Hyperopt でrandom search
relu, batch normarization, adamを使用
計算環境
- DGX-1 P100 16GB * 8
工夫
- 他地点のデータを取り入れることで汎化性能を高めた
- タクシーデータ, 人口データ, 気象データを利用
気になった点
- 他の手法との検討比較がなかった。そもそもdeep でやる必要あるのか?
- グラフをパット見た感じdailyのseasonalityの影響が大きい。周期はyearlyで考慮したとのことだがその他は?
- 研究, 計算コストと実際の売上への寄与

機械学習による視覚情報理解

東大原田先生の公演研究室の最近のDL関係の成果報告

今回の発表テーマは以下の3つ

webDNN
Neural renderer
between class learning

以下で概要をまとめますが, Deepの話あまり詳しくないのでテキトーな箇所もあると思うので, 詳細気になった方は元の論文読んでください。

webDNN

概要

紹介ページの内容をGoogle翻訳に突っ込んだだけ

ディープニューラルネットワーク（DNN）は、多くのアプリケーションで使用することに大きな注目を集めています。しかし、多くの計算資源が必要であり、GPGPUなどの実行環境に基づくハードウェアアクセラレーションを設定するには膨大な処理が必要です。したがって、エンドユーザにDNNアプリケーションを提供することは非常に困難です。 WebDNNは、Webブラウザをインストール不要のDNN実行フレームワークとして使用することで、この問題を解決します。このフレームワークは、訓練されたDNNモデルをモデルデータを圧縮し、実行を加速するように最適化し、WebAssemblyやWebGPUなどの新しいJavaScript APIを使用してゼロオーバーヘッド実行を実現します。実証的評価では、200倍以上の加速を達成しました。

PCなどのカメラで取り込んだ画像をリアルタイムで変換, 分類 ONNXにも対応
実際に以下のページで試せる MIL WebDNN
- Neural Style Transfer
  上記ページのデモでは葛飾北斎風の絵に変換可能
- ResNet50
  学習済みResNetによる物体識別
OSSとして公開されている :ideograph_advantage: https://github.com/mil-tokyo/webdnn

Neural renderer

概要 2d画像から, 3dモデルへのレンダリングをDNNで実現既存のBoxel baseよりスムーズに3dモデルを再現

著者による紹介ページ

3dモデルのレンダリングをDNNで行うにあたって微分不可能な領域が存在するため, backpropの計算が困難。提案手法ではblurしてから微分。詳細は元論文fig.2, fig.3, chap.3あたりを参照
3d版deep dreamなどが紹介されていた。

between class learning

paper

(概要) 画像識別のための新しい学習法。 CIFAR10, CIFAR100などでShake-Shake Regularizationを拡張することでSOTA達成

ベースのアイデアはMITとFAIRが出したmixupと同様。(ref. unsky/mixup: mixup: Beyond Empirical Risk Minimization )

(雑な説明) 異なる2つのクラスt1,t2に属する, imageの特徴x1, x2を r~U(0,1) でmixinして, 特徴を (1-r)x1+rx2, クラスを (1-r)t1+rt2 として学習を行う。

(なぜうまく行ったか) CNNは内部表現として画像をwaveformでも扱っているため, 音声識別におけるmixinと同様に良い作用を及ぼしたと考えられる。
(元論文3.2節 ※この辺だいぶ理解が怪しいです)

ポスターセッション

富士通, デンソー, Mathworks, Brainpad, ABEJAあたりを聞きに行きました。

ABEJAのmachine learningのモデルを管理するプラットフォームはなかなか良さそうでした。公演ではDeep押しでしたがその他のモデルも管理できる模様

その他

人多すぎて疲れました。Deeplearningでいい感じに動線管理してほしい。。。
ハードよりの方の話が多かったので新鮮でした。
NVIDIA Carかっこいい

TIL blog

技術ネタ, その他学んだことのアウトプット用