NEUTRINOの仕組み全然わからん

NEUTRINOが出た際、いちユーザーとしてだけでなく、技術的にも興味が湧いたので調べてみたんだけどさっぱりわからず諦めました。

でもやっぱり「自分でも歌声合成を実装してみたい」という思いが捨てられないので、 今年勉強する予定だったものの優先順位を入れ替えて、しばらく取り組んでみようと思います。

最初に NEUTRINO作者の @SHACHI_KRTN さんによる説明(2019年12月のデモ公開時)を引用します。

また、リリース後にVocoderについて触れられていました。

ぜ、全然わからん…。

とりあえず出てきたキーワードらしきものは以下の通り。

用語 意味?
DNN Deep Neural Networks、いわゆるディープラーニングですね。(入門書を読んだことがある程度)
Acoustic NN Deep Neural Networks for Acoustic Modeling in Speech Recognition – Google Research これ? Acoustic NN というワードでは引っかかってこない。Acousticは音響?
AR 自己回帰?
FFNN 順伝播型ニューラルネットワーク
Residualで繋いだ構成 ResNet?
対数基本周波数 この辺は音声合成を勉強したらわかる?
メルケプ
非周期性指標
有声/無声 〃 有声音・無声音のこと?
WORLD WORLD これ
NN Vocoder, NSF リリース時のNEUTRINOは代わりににWORLDを使っているということなので無視しておく

これが全部説明できるころには、僕も歌声合成できているかもしれない…?

「歌声合成」より「音声合成」の方が情報が豊富なので、まずは普通にしゃべらせる方を勉強したほうがよさそう。