TAMALOG

プログラミングがあれば遠いところへ行けます。プログラムと人の共生を記録します。

このブログを読んだが、声質変換の知識と多層ニューラルネットワークの知識が足りずに全体的にわからなかった。

hiroshiba.github.io

特にわからなかったのは以下。pix2pixが適しているのかよくわからない。

少ないデータ数で学習させるには、pix2pixモデルが適している。 今回はこのpix2pixモデルを使って声質変換タスクを解いた。

声質変換で注目していたのは、クリムゾンテクノロジー株式会社の「リアチェンvoice」だった。デモを聞いてみるとかなり違和感が少ないことに驚くと思う。

www.youtube.com