NEUTRINOが出た際、いちユーザーとしてだけでなく、技術的にも興味が湧いたので調べてみたんだけどさっぱりわからず諦めました。
でもやっぱり「自分でも歌声合成を実装してみたい」という思いが捨てられないので、 今年勉強する予定だったものの優先順位を入れ替えて、しばらく取り組んでみようと思います。
最初に NEUTRINO作者の @SHACHI_KRTN さんによる説明(2019年12月のデモ公開時)を引用します。
ありがとうございます。いつも楽しく研究を拝見させていただいております。
— SHACHI (@SHACHI_KRTN) 2019年12月6日
基本的な流れはよく見るDNN歌声合成の流れになります。
詳細は割愛させていただきますが、Acoustic NNはAR付きのFFNNをResidualで繋いだ構成で、過去200 frameの対数基本周波数・メルケプ(0次)、過去20 frameのメルケプ(1~60次)・非周期性指標・有声/無声をARしています。
— SHACHI (@SHACHI_KRTN) 2019年12月6日
NN Vocoderはh-sinc-NSFがベースで、入力をWORLDの基本周波数・メルケプ・非周期性指標、出力を24kHzに変更しています。学習率も段階的に下げるようにしています。
— SHACHI (@SHACHI_KRTN) 2019年12月6日
ご参考になれば幸いです。
補足になりますが、継続長に関しては20曲では推定が難しい部分があるため一部修正を加えています。(母音脱落など)
— SHACHI (@SHACHI_KRTN) 2019年12月6日
フルセットの50曲での学習である程度改善されることを期待しています。
また、リリース後にVocoderについて触れられていました。
・NN Vocoderのwindows移植(開発)
— SHACHI (@SHACHI_KRTN) 2020年2月21日
今回公開したWORLDバージョンはどちらかというと高速版になります。過去のデモで公開したものはNN Vocoder(NSF)を用いたバージョンです。
Vocoder特有の鼻が詰まったような感じ(over smoothing感)が消え、よりクリアでアタックが強い明瞭な音声を合成できます。
ぜ、全然わからん…。
とりあえず出てきたキーワードらしきものは以下の通り。
用語 | 意味? |
---|---|
DNN | Deep Neural Networks、いわゆるディープラーニングですね。(入門書を読んだことがある程度) |
Acoustic NN | Deep Neural Networks for Acoustic Modeling in Speech Recognition – Google Research これ? Acoustic NN というワードでは引っかかってこない。Acousticは音響? |
AR | 自己回帰? |
FFNN | 順伝播型ニューラルネットワーク |
Residualで繋いだ構成 | ResNet? |
対数基本周波数 | この辺は音声合成を勉強したらわかる? |
メルケプ | 〃 |
非周期性指標 | 〃 |
有声/無声 | 〃 有声音・無声音のこと? |
WORLD | WORLD これ |
NN Vocoder, NSF | リリース時のNEUTRINOは代わりににWORLDを使っているということなので無視しておく |
これが全部説明できるころには、僕も歌声合成できているかもしれない…?
「歌声合成」より「音声合成」の方が情報が豊富なので、まずは普通にしゃべらせる方を勉強したほうがよさそう。