CC56

CC56: 567収束までに達成したい56リスト

Day-24 月レポ 【2020/04】

期間: 2020/04/05-2020/04/30

f:id:hyper-pigeon:20200430144710p:plain

今月もお疲れさまでした。

四月にやったこと

進んでいるけど、終わりにはほど遠いといった感じ。 実はここまでやって全体の 0.25% しか終わってない。

あと、これは副作用で得られた効果なんですが、相当な文字数を書いたのでタイピングがちょっと速くなったと思います。

それと、沢山のご支援ありがとうございます。

やると言ってまだやってないことリスト

  • TensorFlow の ControlFlow
  • 自動微分の説明
  • 2.5倍のポエムの続き
  • 独自の努力2.0 について語る

五月の目標

  • Kaggle
    • Flower Classification with TPUs: できれば 10%以内 に入りたい
    • University of Liverpool - Ion Switching: 銀圏目指す
    • iWildCam 2020 - FGVC7: できれば 10% 以内
  • チートシートをもう二枚作成する
  • 論文は20本精読
  • ガッツリとカラー絵を描く。最低一枚、できれば二枚
  • AWS をいい感じに学ぶ
  • VRoid モデル作成
  • 運動能力を少しずつ高める(とりあえず筋トレ?)
  • 項目6 "英語・制作・勉強" から三項目選んで実行
  • 項目7 "料理" を一つ実行
  • (項目外) Posemaniacs を毎日やる

ワンドロやってみた

今回の一番上の画像。直したい所が無限にあるが、とにかく打ち切る所が大事だと思うので、これ以上加筆もしないし、恥じる事も無いのでこのままアップする。

以下の時間設定は最初から区切っておいたので、時間が来るたびに打ち切り、というのを繰り返した。

  • 構図・下書き・ラフ: 15分
  • 線画: 15分
  • 色塗り: 30分

とにかくやってみてわかったこと。 絵を高速で描くのは「運動能力」をめちゃくちゃ使う。 右手で描きつつ左でのショートカットキーを駆使し、目で全体のバランスを確認しつつ細かいところにミスがないか確かめる。 これをだいたい1~2秒に一回のペースで延々と繰り返すので、かなり疲れる。

今回は始めてだったので、あえてかなり単純な構図にしたのだが、これでも全然時間が足りない。 構図・下書き・ラフ に関してはもっと時間を抑えつつ、それらを色塗りの時間に回すべきなんだと思う。

メリットとデメリットについて語ると、

  • メリット: アウトプットとして質が高い。技術を体に慣れさせる、という点では非常に優秀。また、自分の想像と完成品の相違を認識するためにも使える。また、単位時間あたりの生産能力がどのくらいか測れる。個人的には1時間で終わると分かっていると、気が引き締まる。時間がかかっている作業を諦めて、"作業の局所解"から脱出できる(諦めた作業に関しては別途メモしておいた)。など
  • デメリット: ワンドロにはインプット要素がなく、新しいことをするのには不向き。これだけやってたら同じ絵しか描けなくなりそう。よって、別の手段で絵のインプットが必要。

のような感じ。

確実に一時間で終わる、という点では他の作業の作業時間が確保できるので、他にもやることがある CC-56 にマッチした手法かもしれない。 Posemaniacs と併せて、一日90分一コマの絵の基礎練といった感じか。

メタ的な視点で捉えると、この手法は色々な行動に応用できる。 例えば、論文読み、読書、ブログ書き、情報収集など。 プログラミングはちょっとバグとか待機時間が出るので向いてないかもしれないが、使えないという訳ではなさそう。

ワンリーディング(仮名)をやってみた

上に書いたとおり、ワンドロの論文を読むバージョン。 あんまり詳しくない分野+新し目 の論文を選んだので、結構解釈違いを起こしているかもしれない。 ただ、自分の中ではこの論文がどんな物かは理解できたので良かったと思う。

<文献情報>

<どんなもの?>

  • 音声とテキストのペアを学習させることにより、以下の変換が行える。
    • リズムとピッチの変換
    • 通常の発話を歌声に変換
    • 歌のスタイル変換
  • Mellotron 自体は、音声から変換後のメルスペクトログラムを生成するもので、メルスペクトログラムを音声化するには学習済み WaveGlow を利用する。
  • ベースは Tacotron 2 GST

<先行研究と比べてどこがすごい?>

  • 先行研究 E2E-Prosody より、指標 FFE (F0 Frame Error)を大幅に改善し、ピッチのタイミングがより一致するようになった

<技術や手法のキモはどこ?>

P\left(m e l^{(i)} | T^{(i)}, S^{(i)}, P^{(i)}, R^{(i)}, Z_{m e l^{(i)}} ; \theta\right)・・・(1)

  • 式(1) のように、音声を一度 隠れ変数Z と 明示的な変数T/S/P/R にする点
  • 隠れ変数の抽出自体はほとんど他のツールに任せている
    • Text(T): 音声認識モデル[11:Jasper, 12:Seq2SeqSR]を使用
    • Rythm(R): アラインメントツール[13:GentleForcedAligner, 14:MontrealForcedAligner]を使用
    • Pith(P): Yin Algorithm/Melodia を使用
  • Speaker(S): 話者ラベル

<どうやって有効だと検証した?>

  • 指標 GPE/VDE/FFE
  • ピッチの変化がどの程度ソースと一致しているのかを調べ、E2E-Prosody より、Mellotron のほうが良いと示した

<議論はある?>

  • 既存のツールとかは英語音声ならデータも揃っているけど、例えば日本語だとそれに対応するツールとかデータが十分じゃなくてダメなのでは?
  • Architecture の項目がわかりにくかった(自分だけ?)

<次に読むべき論文は?>

  • [1] E2E-Prosody
  • [19] WaveGlow

実は60分ではまとめきれなくて75分かかってる。 英語を読む速度が遅いのはもちろんだし、まだまだインプットを即座にアウトプットにするスキルが成立してない。

himakoさん からギフトカードを頂きました!

自然言語処理の達人 himakoさん からギフトを頂きました! ありがとうございます!

PFN のパラメータ最適化ツール Optuna の開発にも携わっている模様… 何度見ても経歴が強すぎる…本当に人間か…?(褒め言葉)
体調にだけは気をつけて下さい…!

今まで支援していただいた方

名前あまり公開されたくない…などの要望があれば Twitter 等から連絡を頂ければ対応します! 並びは支援して頂いた順番です。

f:id:hyper-pigeon:20200430202211p:plain
"Dazzle Bird": A Low Visibility Phantom Bird