歌声合成を自分でも実装したいと思っていろいろ調べた結果、「初心者でもできる!歌声合成」みたいな文献はないということがわかった。
音声合成ですら見かけず、さらにニーズが少ないであろう歌声合成は皆無。
というわけで、真面目にいちから勉強していくしかなさそう。
- ディープラーニング関連の入門書読み漁る。 必要に応じて数学も。
- 1といったりきたりしながら手を動かして理解を深める。
- 歌声合成関連の論文やブログ記事(初心者向けではない)の内容を理解して、実装。
書いたら3行だが、はたして今年中にワンフレーズでも歌わせられるのだろうか?
ひとまずいろいろ本を読んでいる。 どうせこのフェーズは何もわかってなさすぎて本すらちゃんと選べないので、近所の本屋にあったとか、図書館にあった、とか雑な理由で選んで読み漁ることにする。
https://www.shuwasystem.co.jp/book/9784798057903.html
いろんなトピックをざっくり説明してくれて、最後には参考書も示してくれるのは好感度高い。記述が正しいかは今の僕にはわからない。
https://www.nikkeibp.co.jp/atclpubmkt/book/19/P95910/
数学をリタイアした人類を置いてけぼりにしない、良い本。(今まで「文系のための」に何度だまされたことか)
https://www.ymm.co.jp/p/detail.php?code=GTB01089996
技術論というか「開発の歴史」みたいな感じ。プロジェクトX(古い)的な。モチベーションはまぁあがったのでよしとする。
※ このブログはJASRAC管理楽曲を使うために非営利にする必要があるので、アフィリエイトとか考えなくて済むからリンク貼るのが楽で良い。
その他Web上のいろいろなものを見て、GoogleのWaveNet(やその改良型)を実装するのが一番情報が多くて、やりやすそうだと思った。
が、そのためには基礎となる、CNNやらをちゃんと理解(例えば自分の言葉で、人に説明できるレベル)しておく必要がありそうだ。
というわけでまずは「ゼロから作る」を真面目にやり直すことにした。 (以前読んだはずだが全然身についていないので)