TIL blog

今更感ありますが, 社内ブログに書いたネタを使いまわしました。

イベントの内容はこんな感じで, 2日目13日の方にお邪魔しました。手元のメモを元に気になったポイントなどをまとめます。

基調講演

Mooreの法則の話
- CPUにおけるMooreの法則は終演を迎えつつあるが, NVIDIAのGPUは依然Mooreの法則と同様のペースで高性能化が進んでいる
NVidia Holodeck
- VR内で共同作業を行えるシステム。物理シミュレーションなども可能。
- DEMO https://youtu.be/hUsP7fsjrdg
Deep Learningにより作曲した曲のオーケストラ演奏
- AI Composer Creates Music for Films and Games – NVIDIA Developer News Center
Remedyとの共同研究による発話からの表情生成
- Nvidia and Remedy use neural networks for eerily good facial animation | Ars Technica
- 発話認識の精度向上のために表情とのマルチモーダル学習を行う話は聞いたことあったが, 逆の話も進んでいたのは知らなかった...
Tesla V100の紹介
- 対応フレームワークのベンチマークは以下
- open NMTで140倍程度高速化とのこと
Progressive GANの話
- Progressive Growing of GANs for Improved Quality, Stability, and Variation | Research
- GANによる超解像。日本語解説はこの辺
  - 【Progressive Growing of GANs for Improved Quality, Stability, and Variation】を読んだのでまとめる - St_Hakky’s blog
  - Progressive Growing of GANs for Improved Quality, Stability, and Variation · Issue #475 · arXivTimes/arXivTimes
日本企業に対してのsales talkがすごかった
🎉 More buy GPU, More save money 🎉

ディープラーニングの本番運用への課題を解決する「ABEJA platform」

データ分析コンサルっぽい話でした以下memo

Abejaは国内で唯一nvidiaから出資受けている
現状, アノテーション作業を付加価値高いデータサイエンティストの方がやっている
アノテーションデータがどれだけ必要かがわからない
精度が何%あれば成立するのか品質の評価のすり合わせが難しい
annotation用のソフトウェアを制作
- annotation以外でも人力AIでデータ貯めるためにオペレータが使用するソフトを内製している会社は結構あるイメージ。名刺のあの会社とか

AIタクシー, リアルタイム人口統計データを用いた深層学習によるタクシー需要予測

研究概要
- https://www.nttdocomo.co.jp/info/news_release/2016/05/31_00.html
今回講演のメディアまとめ
- http://monoist.atmarkit.co.jp/mn/articles/1712/18/news044.html
現状の課題
- 新人ドライバーは需要の高いエリアがわからない
- ベテランドライバーは土地勘のないエイアから得意エリアに帰ろうとしてしまう
使用データについて
- 携帯電話の基地情報データ500mグリッドで推定
- docomo携帯電話所持率に合わせて補正した値を利用
- データは30分毎にバッチ取得
用いた手法について
高次元の特徴量の抽象化のためにstacked denoising AEを使用, AEで抽象化されたデータをpredictorに入れて30分後の需要予測
ParameterOptimization
- Hyperopt でrandom search
relu, batch normarization, adamを使用
計算環境
- DGX-1 P100 16GB * 8
工夫
- 他地点のデータを取り入れることで汎化性能を高めた
- タクシーデータ, 人口データ, 気象データを利用
気になった点
- 他の手法との検討比較がなかった。そもそもdeep でやる必要あるのか?
- グラフをパット見た感じdailyのseasonalityの影響が大きい。周期はyearlyで考慮したとのことだがその他は?
- 研究, 計算コストと実際の売上への寄与

機械学習による視覚情報理解

東大原田先生の公演研究室の最近のDL関係の成果報告

今回の発表テーマは以下の3つ

webDNN
Neural renderer
between class learning

以下で概要をまとめますが, Deepの話あまり詳しくないのでテキトーな箇所もあると思うので, 詳細気になった方は元の論文読んでください。

webDNN

概要

紹介ページの内容をGoogle翻訳に突っ込んだだけ

ディープニューラルネットワーク（DNN）は、多くのアプリケーションで使用することに大きな注目を集めています。しかし、多くの計算資源が必要であり、GPGPUなどの実行環境に基づくハードウェアアクセラレーションを設定するには膨大な処理が必要です。したがって、エンドユーザにDNNアプリケーションを提供することは非常に困難です。 WebDNNは、Webブラウザをインストール不要のDNN実行フレームワークとして使用することで、この問題を解決します。このフレームワークは、訓練されたDNNモデルをモデルデータを圧縮し、実行を加速するように最適化し、WebAssemblyやWebGPUなどの新しいJavaScript APIを使用してゼロオーバーヘッド実行を実現します。実証的評価では、200倍以上の加速を達成しました。

PCなどのカメラで取り込んだ画像をリアルタイムで変換, 分類 ONNXにも対応
実際に以下のページで試せる MIL WebDNN
- Neural Style Transfer
  上記ページのデモでは葛飾北斎風の絵に変換可能
- ResNet50
  学習済みResNetによる物体識別
OSSとして公開されている :ideograph_advantage: https://github.com/mil-tokyo/webdnn

Neural renderer

概要 2d画像から, 3dモデルへのレンダリングをDNNで実現既存のBoxel baseよりスムーズに3dモデルを再現

著者による紹介ページ

3dモデルのレンダリングをDNNで行うにあたって微分不可能な領域が存在するため, backpropの計算が困難。提案手法ではblurしてから微分。詳細は元論文fig.2, fig.3, chap.3あたりを参照
3d版deep dreamなどが紹介されていた。

between class learning

paper

(概要) 画像識別のための新しい学習法。 CIFAR10, CIFAR100などでShake-Shake Regularizationを拡張することでSOTA達成

ベースのアイデアはMITとFAIRが出したmixupと同様。(ref. unsky/mixup: mixup: Beyond Empirical Risk Minimization )

(雑な説明) 異なる2つのクラスt1,t2に属する, imageの特徴x1, x2を r~U(0,1) でmixinして, 特徴を (1-r)x1+rx2, クラスを (1-r)t1+rt2 として学習を行う。

(なぜうまく行ったか) CNNは内部表現として画像をwaveformでも扱っているため, 音声識別におけるmixinと同様に良い作用を及ぼしたと考えられる。
(元論文3.2節 ※この辺だいぶ理解が怪しいです)

ポスターセッション

富士通, デンソー, Mathworks, Brainpad, ABEJAあたりを聞きに行きました。

ABEJAのmachine learningのモデルを管理するプラットフォームはなかなか良さそうでした。公演ではDeep押しでしたがその他のモデルも管理できる模様

その他

人多すぎて疲れました。Deeplearningでいい感じに動線管理してほしい。。。
ハードよりの方の話が多かったので新鮮でした。
NVIDIA Carかっこいい

いい感じのタイトルが思いつかないとかいって, なんだかんだ初めてなかったブログ始めます。技術ネタ中心に書く予定。文章書くのに慣れていないので, 最初のうちはカジュアルに書いていって, 経験積むうち洗練していければ良いかなと思っています。

とりあえず初回は今年の振り返りと来年の抱負から。

振り返り

仕事はじめました。都内のアドテク会社でML engineerやってます。
家賃手当が出る関係で会社の近くに住めたのはラッキーでした。私服徒歩通勤サイコー。
やっぱり東京はソフトウェアエンジニアリングの勉強会多くてよいですね。参加基準もゆるいので知らないことを知るためにあちこち顔出させていただいていました。来年は主催したい。
- Twitterでしか絡んだことなかった人の正体がわかったり, OSS, 技術ブログ, Podcastなどの著名人と実際にあって直接質問できたのが良かったです。
仕事の反省
- 前半はドメイン知識がなさすぎて, 後半は調べだすと止まらないくせのせいで, 自分が目標においていたような成果を出せなかったので, 余裕ある今のタイミングで仕事の進め方整理してます。
- 抽象的な話になってしまうが, 自分が書きながら, 話しながら思考を整理するタイプなので, 接し方によってはコミュニケーションロスが生じてしまうケースがあった。

来年の抱負

オープンな場でのアウトプットを増やす
- もともと良くも悪くも勉強好きなので, 自分である程度理解して満足してしまうフシがあるのでちゃんとコード書くなりブログ書くなり外で話すなりしてアウトプットする。
- 巧遅拙速大事。人はマサカリを投げつけられて強くなる。
- とりあえず年始に二件ほど登壇予定。
kaggle参加
- 最近の手法ながめて手元で試したり, kaggler-jaで知見もらっているくらいでコンペにはあまり参加できてなかったので出ます。masterになりたい。
なにか１つプロダクト作る
- アプリケーションとして完結したものを作ったことないのが, 微妙にコンプレックスなので作る。
- 被りそうなネタしか思いついてないけど。。。