ディープラーニングに入門したい

March 15, 2020

歌声合成を自分でも実装したいと思っていろいろ調べた結果、「初心者でもできる!歌声合成」みたいな文献はないということがわかった。

音声合成ですら見かけず、さらにニーズが少ないであろう歌声合成は皆無。

というわけで、真面目にいちから勉強していくしかなさそう。

  1. ディープラーニング関連の入門書読み漁る。 必要に応じて数学も。
  2. 1といったりきたりしながら手を動かして理解を深める。
  3. 歌声合成関連の論文やブログ記事(初心者向けではない)の内容を理解して、実装。

書いたら3行だが、はたして今年中にワンフレーズでも歌わせられるのだろうか?

ひとまずいろいろ本を読んでいる。 どうせこのフェーズは何もわかってなさすぎて本すらちゃんと選べないので、近所の本屋にあったとか、図書館にあった、とか雑な理由で選んで読み漁ることにする。

https://www.shuwasystem.co.jp/book/9784798057903.html

いろんなトピックをざっくり説明してくれて、最後には参考書も示してくれるのは好感度高い。記述が正しいかは今の僕にはわからない。

https://www.nikkeibp.co.jp/atclpubmkt/book/19/P95910/

数学をリタイアした人類を置いてけぼりにしない、良い本。(今まで「文系のための」に何度だまされたことか)

https://www.ymm.co.jp/p/detail.php?code=GTB01089996

技術論というか「開発の歴史」みたいな感じ。プロジェクトX(古い)的な。モチベーションはまぁあがったのでよしとする。

※ このブログはJASRAC管理楽曲を使うために非営利にする必要があるので、アフィリエイトとか考えなくて済むからリンク貼るのが楽で良い。

その他Web上のいろいろなものを見て、GoogleのWaveNet(やその改良型)を実装するのが一番情報が多くて、やりやすそうだと思った。

が、そのためには基礎となる、CNNやらをちゃんと理解(例えば自分の言葉で、人に説明できるレベル)しておく必要がありそうだ。

というわけでまずは「ゼロから作る」を真面目にやり直すことにした。 (以前読んだはずだが全然身についていないので)

https://www.oreilly.co.jp/books/9784873117584/