期間: 2020/04/05
-2020/04/30
今月もお疲れさまでした。
四月にやったこと
進んでいるけど、終わりにはほど遠いといった感じ。 実はここまでやって全体の 0.25% しか終わってない。
- 56のリストを作った
- ブログ作成、記事を24本書いた(この記事を含める)
- HPを作った: https://p-geon.github.io/paper/
- TensorFlow の論文とその周辺を漁った: TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems (Abadi et al., 2015) | paper
- Dropout 関連の論文を網羅してチートシートを作った: GitHub - p-geon/DropoutCheatSheet
- Mellotron を読んだ(今日やった)
- 絵を十枚描いて、絵について反省した(昨日までで八枚、今日二枚追加)
- 『努力2.0』を読んだ
- Posemaniacs を始めた
あと、これは副作用で得られた効果なんですが、相当な文字数を書いたのでタイピングがちょっと速くなったと思います。
それと、沢山のご支援ありがとうございます。
やると言ってまだやってないことリスト
- TensorFlow の ControlFlow
- 自動微分の説明
- 2.5倍のポエムの続き
- 独自の努力2.0 について語る
五月の目標
- Kaggle
- Flower Classification with TPUs: できれば 10%以内 に入りたい
- University of Liverpool - Ion Switching: 銀圏目指す
- iWildCam 2020 - FGVC7: できれば 10% 以内
- チートシートをもう二枚作成する
- 論文は20本精読
- ガッツリとカラー絵を描く。最低一枚、できれば二枚
- AWS をいい感じに学ぶ
- VRoid モデル作成
- 運動能力を少しずつ高める(とりあえず筋トレ?)
- 項目6 "英語・制作・勉強" から三項目選んで実行
- 項目7 "料理" を一つ実行
- (項目外) Posemaniacs を毎日やる
ワンドロやってみた
今回の一番上の画像。直したい所が無限にあるが、とにかく打ち切る所が大事だと思うので、これ以上加筆もしないし、恥じる事も無いのでこのままアップする。
以下の時間設定は最初から区切っておいたので、時間が来るたびに打ち切り、というのを繰り返した。
- 構図・下書き・ラフ: 15分
- 線画: 15分
- 色塗り: 30分
とにかくやってみてわかったこと。 絵を高速で描くのは「運動能力」をめちゃくちゃ使う。 右手で描きつつ左でのショートカットキーを駆使し、目で全体のバランスを確認しつつ細かいところにミスがないか確かめる。 これをだいたい1~2秒に一回のペースで延々と繰り返すので、かなり疲れる。
今回は始めてだったので、あえてかなり単純な構図にしたのだが、これでも全然時間が足りない。 構図・下書き・ラフ に関してはもっと時間を抑えつつ、それらを色塗りの時間に回すべきなんだと思う。
メリットとデメリットについて語ると、
- メリット: アウトプットとして質が高い。技術を体に慣れさせる、という点では非常に優秀。また、自分の想像と完成品の相違を認識するためにも使える。また、単位時間あたりの生産能力がどのくらいか測れる。個人的には1時間で終わると分かっていると、気が引き締まる。時間がかかっている作業を諦めて、"作業の局所解"から脱出できる(諦めた作業に関しては別途メモしておいた)。など
- デメリット: ワンドロにはインプット要素がなく、新しいことをするのには不向き。これだけやってたら同じ絵しか描けなくなりそう。よって、別の手段で絵のインプットが必要。
のような感じ。
確実に一時間で終わる、という点では他の作業の作業時間が確保できるので、他にもやることがある CC-56 にマッチした手法かもしれない。 Posemaniacs と併せて、一日90分一コマの絵の基礎練といった感じか。
メタ的な視点で捉えると、この手法は色々な行動に応用できる。 例えば、論文読み、読書、ブログ書き、情報収集など。 プログラミングはちょっとバグとか待機時間が出るので向いてないかもしれないが、使えないという訳ではなさそう。
ワンリーディング(仮名)をやってみた
上に書いたとおり、ワンドロの論文を読むバージョン。 あんまり詳しくない分野+新し目 の論文を選んだので、結構解釈違いを起こしているかもしれない。 ただ、自分の中ではこの論文がどんな物かは理解できたので良かったと思う。
<文献情報>
- タイトル+URL: [1910.11997] Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens
- 著者: Rafael Valle, Jason Li, Ryan Prenger, Bryan Catanzaro
- 出してる機関: NVIDIA
<どんなもの?>
- 音声とテキストのペアを学習させることにより、以下の変換が行える。
- リズムとピッチの変換
- 通常の発話を歌声に変換
- 歌のスタイル変換
- Mellotron 自体は、音声から変換後のメルスペクトログラムを生成するもので、メルスペクトログラムを音声化するには学習済み WaveGlow を利用する。
- ベースは Tacotron 2 GST
<先行研究と比べてどこがすごい?>
- 先行研究 E2E-Prosody より、指標 FFE (F0 Frame Error)を大幅に改善し、ピッチのタイミングがより一致するようになった
<技術や手法のキモはどこ?>
- 式(1) のように、音声を一度 隠れ変数Z と 明示的な変数T/S/P/R にする点
- 隠れ変数の抽出自体はほとんど他のツールに任せている
- Text(T): 音声認識モデル[11:Jasper, 12:Seq2SeqSR]を使用
- Rythm(R): アラインメントツール[13:GentleForcedAligner, 14:MontrealForcedAligner]を使用
- Pith(P): Yin Algorithm/Melodia を使用
- Speaker(S): 話者ラベル
<どうやって有効だと検証した?>
- 指標 GPE/VDE/FFE
- ピッチの変化がどの程度ソースと一致しているのかを調べ、E2E-Prosody より、Mellotron のほうが良いと示した
<議論はある?>
- 既存のツールとかは英語音声ならデータも揃っているけど、例えば日本語だとそれに対応するツールとかデータが十分じゃなくてダメなのでは?
- Architecture の項目がわかりにくかった(自分だけ?)
<次に読むべき論文は?>
- [1] E2E-Prosody
- [19] WaveGlow
実は60分ではまとめきれなくて75分かかってる。 英語を読む速度が遅いのはもちろんだし、まだまだインプットを即座にアウトプットにするスキルが成立してない。
himakoさん からギフトカードを頂きました!
自然言語処理の達人 himakoさん からギフトを頂きました! ありがとうございます!
PFN のパラメータ最適化ツール Optuna の開発にも携わっている模様…
何度見ても経歴が強すぎる…本当に人間か…?(褒め言葉)
体調にだけは気をつけて下さい…!
今まで支援していただいた方
- うぇるち さん (note)
- threecourse さん (blog)
- H. NOMATA さん
- 俵 さん
- あるふぁ さん
- ざぶろう さん
- じんべえざめ さん
- watarumon さん (blog)
- カレーちゃん さん (blog, note, Youtube)
- himako さん (HP)
名前あまり公開されたくない…などの要望があれば Twitter 等から連絡を頂ければ対応します! 並びは支援して頂いた順番です。