CC56

CC56: 567収束までに達成したい56リスト

Day-203 音声合成の論文、名前似すぎでは?

f:id:hyper-pigeon:20201026231048p:plain
一応作成途中なのでIndesignのスクショにしてます(WIPの状態で保存する人がいると困るため)

TTSとは

TTS(Text-to-Speech) は、テキストからの音声合成です。 画像系とはだいぶ研究の進展が異なり、現状はFlow-basedのモデルが圧倒しています。

また、画像生成におけるIS, FID、言語モデルにおけるGLUEなどと異なり、決定的な評価指標が未だに存在しません。MOSという人間の感覚指標で1-5段階のスコア付けをして評価するのが一般的なようです。

飽きたのでまた気が向いたら制作再開します…

Twitterを張っていると、定期的に音声系の論文が流れてくるため、流しそうめんみたいにそれらをメモしておきました(?)。 TTSは、MelGANとかMelNetとかMellotronとか似たような名前が多いです。それぞれについて何回も調べ直すのは面倒なので、チートシート的なのが作りたくなった感じです。

本当はVC(声質変換)についてもまとめたかったのですが、TTSだけでも手がつけられないほどに大きくなってしまったので、いったんTTSだけにしました。

分類に関しては、End-to-Endはモデルによっては曖昧だったりします(外部のVocoderを使用)。また、どのVocoder使ったとかも、Vocoder部分を付け替えて複数実験しているものもあるので一概に分類できません。 今後は、色分けとかマーク(■★●▲)とかを付けて分かりやすくしていきたいです。

現状も一部書いてあるのですが、どのデータセットを使ってMOSがいくつになったとかもバッと見で分かるようにしていきたいです。

おわりに

論文は一部を除いて流し読みしかしてないので、不正確な分類もあると思います(これから読む)。 また、これは氷山の一角なので引用文献とかを追っていけばまだまだ追加する必要がありそうです。

なんだかんだ言って、これで40本くらいあるので、AI系論文を200本読むタスクは勝手に達成できるかもしれない。

こうして見ると、音声系は CNN, Transformer, GAN, Flow と大きいジャンルの恩恵を別々に得られるので、例えばTransformer系列の最新モデルとかが出たら組み合わせて論文を書いたりできそう(小学生並みの感想)。現実はMOS-testingとかあって難しいんだと思いますが。

ちなみに僕は音声に関してはド素人なので、色々めちゃくちゃ間違えているかもしれません。 大学の方の自分の研究も進めなきゃいけないので、今日はこの辺で失礼します…