NEUTRINOが出た際、いちユーザーとしてだけでなく、技術的にも興味が湧いたので調べてみたんだけどさっぱりわからず諦めました。
でもやっぱり「自分でも歌声合成を実装してみたい」という思いが捨てられないので、 今年勉強する予定だったものの優先順位を入れ替えて、しばらく取り組んでみようと思います。
最初に NEUTRINO作者の @SHACHI_KRTN さんによる説明(2019年12月のデモ公開時)を引用します。
https://twitter.com/SHACHI_KRTN/status/1202930478359044096
https://twitter.com/SHACHI_KRTN/status/1202930622907346945
https://twitter.com/SHACHI_KRTN/status/1202931130481008640
https://twitter.com/SHACHI_KRTN/status/1202932425363345408
また、リリース後にVocoderについて触れられていました。
https://twitter.com/SHACHI_KRTN/status/1230898509995315201
ぜ、全然わからん…。
とりあえず出てきたキーワードらしきものは以下の通り。
用語 | 意味? |
---|---|
DNN | Deep Neural Networks、いわゆるディープラーニングですね。(入門書を読んだことがある程度) |
Acoustic NN | https://research.google/pubs/pub38131/ これ? Acoustic NN というワードでは引っかかってこない。Acousticは音響? |
AR | 自己回帰? |
FFNN | 順伝播型ニューラルネットワーク |
Residualで繋いだ構成 | ResNet? |
対数基本周波数 | この辺は音声合成を勉強したらわかる? |
メルケプ | 〃 |
非周期性指標 | 〃 |
有声/無声 | 〃 有声音・無声音のこと? |
WORLD | http://www.kki.yamanashi.ac.jp/~mmorise/world/index.html これ |
NN Vocoder, NSF | リリース時のNEUTRINOは代わりににWORLDを使っているということなので無視しておく |
これが全部説明できるころには、僕も歌声合成できているかもしれない…?
「歌声合成」より「音声合成」の方が情報が豊富なので、まずは普通にしゃべらせる方を勉強したほうがよさそう。