Beariaのブログ。名前はまだない。

Twitterに収まらない長文を書きたくなった時に使います

MMVCを使ってみたメモ

MMVCが1.2.0にバージョンアップしたとのニュースを読んだのでやってみました。

www.moguravr.com

 

◇やってみた動画

下の動画は通常のマイク入力とMMVC出力を同時にして、どのくらい遅延するのかを確認したものになります。(滑舌悪いですねこの人

 

youtu.be

 

◇準備編

 

基本的にはGithub

github.com

を読みつつ、記載のあるニコニコ動画

www.nicovideo.jp

動画を見ながら学習させて、109?くらいまで実行しました。

 

◇モデル学習を始めるにあたって詰まりそうなところ

・ITAコーパス100文を読み上げた音声ファイル(wav)を用意する。

チュートリアルPh1.「自分の音声の録音と音声データの配置」に記載がある通り、ITAコーパスを読み上げたwavファイルが必要になります。

チュートリアルAudacityでも、OREMOでもいいですが、録音してwav書き出しを繰り返します。

チュートリアル内にある分割済みITAコーパスはPh1.-2のデータを配置する際に使いますが、~all.txtデータはメモ帳だとちょっと読みづらいので、次のところのpdfを用意して録音しました。

github.com

注意点としては、emotionとrecitationは内容が違うので、データ配置する方を録音します。

今回はemotionでとりあえず録音しました。

また、分割済みITAコーパスとファイル名を一致させる必要があると思うので、録音したファイルは通し番号が揃うようにしましょう。

txtファイルのファイル名をコピペして、数字だけ都度入力して保存すればいいと思います。

 

www.nicovideo.jp

こちらの方の動画では

結論(v1.2.0.4):音声は0.401秒以上15.99秒以下にしてください。(抜粋)

とあるので、後々のバージョンも考えると気にしたほうがいいかもしれません。

(短すぎる、長すぎるwavは学習データとして無視されてしまうそうなので、含まれる音声入力時の精度が落ちる?ことになると思います

 

---

というか今Twitter眺めてたらめちゃくちゃ丁寧な動画もあるみたいなのでこちら見ましょう。

www.nicovideo.jp