Algo_Ayugon

F→MボイチェンUTAU音源を作る１

Added 2020-05-22 07:04:51 +0000 UTC

Algo_Ayugonです。

　普段は３Dモデリングとかしてる者ですが、最近あまり制作意欲が芳しくなく、違うことをやってみようということで折角なので以前から興味があった音方面にも手を出しています。

　そんで、とりあえずUTAU音源ライブラリを作ってみようとしており、この記事はその備忘録です。私は普段からボイチェン（F→M）を常用してインターネット上で生きていますが、歌おうと思った時に（私は歌うのが結構好きです）リアルタイムでボイチェン入れたまま歌うのは遅延の問題で難しいし、かといってレコーディングしたものを後から加工するのだと、加工後に最適となる表現を予想しながら歌うことになりこれもまた難しいなと感じ、じゃあUTAU化すればいいんじゃないかと思ったのが発端です。

　ちなみに、今回はVSTプラグイン：Roveeを使うので使いませんが、普段VRCやDiscordで使っているボイスチェンジャーはGachikoe! (ガチコエ!)（https://www.fanbox.cc/@sakuranesachi）です。普通におしゃべりするにはこのソフト一つで完結し、非常に低遅延で使いやすくおすすめです。私はピッチを１オクターブ下（50%）まで下げるためBOOTHに置いてある無料版では範囲が足りないので開発版（FANBOX支援特典）を使用しています。いつもお世話になっております。

---

とりあえず単独音で試しました。連続音はまた別の記事で。

●全体の流れで参考にしたHP等

　基本的にはUTAU音源制作wiki（https://w.atwiki.jp/vbmaker/）を見ながらやっていきます。

●録音する

　OREMOを使って録音していきます。

　リストは難読抜き単独音リスト、ガイドBGMは巽様の単独音・3モーラ連続音用（https://bowlroll.net/file/119729）を使用しました。

　マイクですが、まともに使えるマイクがRiftS付属のものしかなかったので、RiftSを装着しバーチャルデスクトップを使ってVR録音しました（なんで？）。とはいえ、RiftS付属マイクはそこら辺のマイクよりも音質は良く、頭につけている関係上位置が安定しているので実は結構実用的なのではないかと思いました。自動録音のおかげでPC操作は一切しなくていいとはいえ、現実世界の様子が見えないので水分補給がやりにくいという欠点はありますが…。

　とりあえず20分くらいで一気に録りましたが、結構疲れたし喉ガラガラになりそうだったので、連続音を取る時はもっと長時間だし３分の一くらいごとに休憩をとった方が良いかもしれない。

●フィルターをかける

　ワタユ様の記事（https://ch.nicovideo.jp/actinotrocha/blomaga/ar983100）を参考に、Wavtarを用いて一度音源を一つのWAVに統合し、ボイチェン等のフィルターを掛けてから再びバラバラにします。三毛猫様の記事（http://hkarea.hatenablog.jp/entry/2018/04/22/184539）のように、チェインを用いて音源全てに一括で設定を適用する手法と迷いましたが、統合した方がノイズ除去等がやりやすそうだったのでとりあえずこっちで。

　具体的な設定については、purureko様の記事（https://purureko.com/etc/post-783/）やfrontendpict様の記事（https://note.com/frontendpict/n/n9ba85cfaf3f1）を参考に以下の様に組みました。

---

　①ノイズ除去

　②イコライザー（100Hz以下ローカット）

　③Rovee（フォルマント、ピッチ調整）

---

　色々な試行錯誤があり、結局このシンプルな構成に落ち着きました。

　ピッチは私の場合とりあえずガチゴエ!と同じ１オク下（-12）に設定してありますが、歌わせる音域によってピッチ変更をしなかったり、更に半オクくらい下げたり（ただしあまりピッチを下げ過ぎると今度はノイズが乗ってくる）するとより自然になるようです（↑音源↓音源みたいな概念だと思われる）。

（以下試行錯誤の様子）※私の声の場合

　最初、Roveeでフォルマントとピッチを変えた後に、ザラザラ感を失くせばノイズ消えるかな？と思いEQで5000Hz以上をハイカットしていましたが、UTAU上で更にピッチ変更等を行うとむしろノイズがより発生してしまうことがわかりました（しかもハイカットしてるので音がこもるし）。

　じゃあフィルターかけない方がいいのかというとそうでもないらしく、Roveeの前にローカットしておくのは特にUTAU上で低音の方にピッチ変更した時のノイズを抑える効果があるっぽいです。

　結論としては、Roveeを介す前にローカットしておき、音源にはハイカットせず、UTAUで歌わせた後にどうしても発生してしまったノイズをMIX前か後かにハイカットで消す、みたいな感じがいいのかと思います。

　たぶん音に詳しければノイズが発生しないように音を整えることもできるのだとは思いますが、素人なので全然わかりません。俺は雰囲気でイコライザーを触っている……！！誰か助けてくれ～～～～！！！

●原音設定をする

　setParamを使って原音設定をします。

　正直なんもわからん。のですが、わからんなりにhttps://w.atwiki.jp/utau2008/pages/20.htmlとかhttps://togetter.com/li/263123とかhttps://www.nicovideo.jp/watch/sm11964638とか重音テト（http://kasaneteto.jp/）さんの設定を見ながら見様見真似で設定。スペクトラムの形が変わるところ（母音が入ってくるところ）に先行発声を置き、パワーのピークが終わったあたりに子音域を置くと良いらしい…のだが、自分の声、パワーが安定しなくて子音域を置くところが全然わからないものも多かったので結構適当に置いた。ボイトレ必要だなあ（最近カラオケとかも行ってなくて喉が退化している）。

　原音設定したファイルoto.iniは音源が入ってるフォルダと同じところにぶちこんでおきます。

●UTAわせる

　音源とoto.iniが入ったフォルダをUTAUにドロップしたらUTAいました。やったぜ。

　あとはこっちのもんなのでDAWに読み込んでこちょこちょする。

https://twitter.com/ayugon_vrc/status/1263726804130390017

　ベタ打ちだし原音設定も甘いのでおかしいこともあるけど、まあこの辺は連続音にすればなんとかなるかなと思ってとりあえず放置。

●今後

　一番楽な声で収録したのが今回の音源なので、これから下の音域のフォローとか表情とかの音源も録ってみたい…けどボイチェンの癖を把握するのが大変そうですね。あまり変な声出すとノイズ入りそうで怖い…。囁きとかめっちゃむずそう。

　あとは変換前の地声音源も、UTAUとして使うにはまあ良いかという感じなので整備してみたさもあります。少年声として使い勝手良さそうではある。

　DTMの勉強もぼちぼちやってるのでオリジナル曲とか出せたらいいですね。死ぬまでには。音源配布は気が向いたらやるかも。

おわり。連続音に続く（そのうち）