NEUTRINOの仕組み全然わからん

March 10, 2020

NEUTRINOが出た際、いちユーザーとしてだけでなく、技術的にも興味が湧いたので調べてみたんだけどさっぱりわからず諦めました。

でもやっぱり「自分でも歌声合成を実装してみたい」という思いが捨てられないので、 今年勉強する予定だったものの優先順位を入れ替えて、しばらく取り組んでみようと思います。

最初に NEUTRINO作者の @SHACHI_KRTN さんによる説明(2019年12月のデモ公開時)を引用します。

https://twitter.com/SHACHI_KRTN/status/1202930478359044096

https://twitter.com/SHACHI_KRTN/status/1202930622907346945

https://twitter.com/SHACHI_KRTN/status/1202931130481008640

https://twitter.com/SHACHI_KRTN/status/1202932425363345408

また、リリース後にVocoderについて触れられていました。

https://twitter.com/SHACHI_KRTN/status/1230898509995315201

ぜ、全然わからん…。

とりあえず出てきたキーワードらしきものは以下の通り。

用語 意味?
DNN Deep Neural Networks、いわゆるディープラーニングですね。(入門書を読んだことがある程度)
Acoustic NN https://research.google/pubs/pub38131/ これ? Acoustic NN というワードでは引っかかってこない。Acousticは音響?
AR 自己回帰?
FFNN 順伝播型ニューラルネットワーク
Residualで繋いだ構成 ResNet?
対数基本周波数 この辺は音声合成を勉強したらわかる?
メルケプ
非周期性指標
有声/無声 〃 有声音・無声音のこと?
WORLD http://www.kki.yamanashi.ac.jp/~mmorise/world/index.html これ
NN Vocoder, NSF リリース時のNEUTRINOは代わりににWORLDを使っているということなので無視しておく

これが全部説明できるころには、僕も歌声合成できているかもしれない…?

「歌声合成」より「音声合成」の方が情報が豊富なので、まずは普通にしゃべらせる方を勉強したほうがよさそう。