ディープラーニングを使った初めての逮捕者が出たり、IBMの量子コンピュータの性能がQV64に到達したり、色々ありましたね…
論文もいくつか目を引くのが出ていました。
まず、Normalization のサーベイ論文 (2020/9/27) は結構勉強になりそうでした。
TinyGAN
先月の末(9/29)にarXivに出た論文ですね。
気になるタイトルだったのでざっくり読みました。 全タイトルは "TinyGAN: Distilling BigGAN for Conditional Image Generation" という論文です。 arXivのコメントを見ると、ACCVに採択されてるらしいです。
論文: [2009.13829] TinyGAN: Distilling BigGAN for Conditional Image Generation
基本的にタイトル通り、BigGANの蒸留をしてパラメータ削減を実現するという内容です。
メインはロスの設計ですね。
- ピクセル単位の L1 Loss
- ピクセル単位でのロスのみで蒸留の学習をすると、ぼやけた画像になってしまうので、蒸留の過程でも Student Generator に対して Adversarial Loss をかける
- BigGAN(教師)が生成した画像か、TinyGAN(生徒)が生成した画像かを見分ける Tiny Dicriminator を追加
- 見た目が良くなるように VGG の中間層を抜き取った Feature Loss を追加
基本は超解像を行う SRGAN とほぼ同じ考え方。異なる点は Tiny Discriminator くらいかと。
評価はいつもどおり、Inception Score (IS) と Frechet Inception Distance (FID) でした。 IS と FID がどのくらい落ちたらどうなる、とか具体的なことはわからないので、あくまで他モデル (SNGAN+projection discriminator) と比較してどのくらいのスコアを維持できているかという結果です。
ざっと読んだけなので間違っていたら教えて下さい。
疑問点: Feature Loss を追加すると(最適化の観点から) FID が悪くなると思うんだけど、なぜか改善してる。これってもしかして僕の考えが古い?
An Image is Worth 16x16 Words Transformers for Image Recognition at Scale
論文: https://openreview.net/pdf?id=YicbFdNTTy
TinyGANと同時の 2020/9/29 の論文です。今日めちゃくちゃTwitterで話題になってましたね。 ICLR 2021 のレビュー中らしいです。
Transformer の Encoder に画像のパッチを入れ、Decoderは使わず、そのままクラス分類をするらしいです。
画像に畳み込み処理は必須!という風潮が根付いていましたが見事にぶち壊しに来ましたね。"Attention Is All You Need" のタイトル考えた人マジでどれだけ未来を見てたんだ…
こっちはガッツリ読んでからまとめたいと思います。
おわりに
またディープラーニングの転換期に来てるんじゃないかな?と思います。 こういうタイミングは連続してヤバめな論文が出たりするので、来週もまた一波乱ありそうな予感がします。
こういうときは、DeepLearning Monitor (PC推奨)が便利なはず。