NEUTRINO Diffusion – Muon v2.x系アップデート

NEUTRINO Diffusion – Muon v2.x系アップデート

NEUTRINO Diffusion – Muon v2.x概要

NEUTRINOの正式リリースより一年が経ち、第二世代(Muon / ミューオン)へと進化いたしました。
アルゴリズム・モデルなど全面的にリニューアルを実施しました。
第二世代(Muon / ミューオン)では最新の生成AIモデル、Diffusionモデルを採用しより肉声感の高い歌唱表現豊かな音声の生成が可能になりました。推論の度に音声が変化、品質・処理速度を変更可能になるなど機能面でもパワーアップしております。
皆様の制作の一助になれば幸いです。

PIXIV FANBOXにて先行してテスト版を公開しております。
もしよろしければご支援・ご助力いただければ幸いです。

NEUTRINO Diffusionのダウンロード

下記のリンクより最新版のNEUTRINO Diffusionがダウンロードできます。
NEUTRINO Diffusion ダウンロード
NEUTRINO Diffusion ダウンロード(Google Drive)
※ダウンロード容量削減のため、同梱されている歌声ライブラリはめろう(Merrow)・ナクモ(NAKUMO)のみに制限しております。その他のライブラリをご利用の際は、別途歌声ライブラリのダウンロード・解凍・コピーを行ってください。

オンライン版のセットアップ手順はこちらの記事をご覧ください。
Linuxでのセットアップ手順はこちらの記事をご覧ください。

利用方法

特に大きな変更はございません。
旧バージョンと変わりなくご利用いただけます。

変更点など

・NEUTRINO

アルゴリズムやモデルなどを全面的にリニューアルいたしました。
推論精度・処理速度・ファイルサイズなどが改良されております。
全体的な安定性が改善されており、ビブラートなどの歌唱表現も豊かになっております。

推奨音域外の音に関しては旧バージョンよりもシビアになっております。
推奨音域を超えるような曲の場合は、StyleShift・PitchShift(NSF / WORLD)などで適宜ご対応ください。

・NSF

新バージョンではNSFを主体としたシステムへと変更し最適化を行いました。
品質の上限も上がり、より肉声感の高い歌唱表現豊かな音声の生成が可能になりました。

ピッチシフト機能(PitchShiftNsf)を追加しました。
上手く利用することで推奨音域外の音を歌わせることができます。

・WORLD

新バージョンではNSFを主体としたシステムとなり、WORLDはサブのボコーダーとなりました。
NSFとの差別化を図るために、音色はレガシーで伝統的なボコーダーらしさ感じられる質感を保ちつつ、歌い方は滑らかさを重視するという方向性で仕上げております。
楽曲によって使い分けていただければ幸いです。

・処理速度

NEUTRINO・NSFの処理速度を三段階の速度から選択できるようになりました。
advanced / standard / elementsの三段階でInferenceModeを4~2にすることで選択ができます。

* * * * * * * * * *
advanced:InferenceMode=4
高品質・GPU向け
48kHz -16bit

standard:InferenceMode=3
中品質・CPU向け(Passmark score 10000~)
48kHz – 16bit

elements:InferenceMode=2
低品質・ローエンドCPU向け(Passmark score 2500~)
24kHz – 16bit (NSF)、48kHz – 16bit(WORLD)
* * * * * * * * * *
参考(CPU性能比較表【2023年最新版】)
最新のゲーミングPCクラス~10年前のPCクラスまで幅広いユーザーに対応しております。
ご利用のPCのスペック・用途に応じて使い分けていただければ幸いです。

・出力音声

推論の度に音声が変化するようになりました。
ボーカリストにリテイクを依頼しているような雰囲気となります。
納得のいくテイクが出力されるまでリテイクを繰り返すのも一つの選択肢です。

既知の不具合

・推奨音域外で不自然な音が出力される

StyleShift・PitchShift(NSF / WORLD)などで元となる音域を変更すると改善される場合がございます。

・一部の箇所にノイズが発生している

再度出力していただくと改善される場合がございます。

・音声の出力結果を固定したい
今後のアップデートで音声のランダム出力のオンオフを切り替える機能の実装を検討中です。

備考

・スタイルシフトオプション

「キー変更+ピッチ変更ガチャ」と呼ばれるテクニックを行う上級者向けのオプションになります。楽譜全体をNキー上げて打ち込み、ピッチ変更機能でNキー分下げるような処理を行います。
AIシンガー調声アイデア NEUTRINOで使えるテクニック

Run.batのStyleShiftを-5~5ぐらいの値(整数)に設定してお試しください。例えば、”2″に設定すると2個上のキーの歌い方、”-2″にすると2個下のキーの歌い方になります。
得意な音域の歌い方にしたり、低いキーの落ち着いた歌い方を出すことができます。
“StyleShift=-1”, “StyleShift=0”, “StyleShift=1″のように三パターンを出力し、それぞれの良い部分をピックアップすることで複数Takeを録ったような流れにすることもできます。

NSFについて

メモリ使用量は、楽譜中のフレーズの長さに依存します。 休符またはブレス記号で囲まれた区間が1フレーズとなります。メモリ / GPUメモリが少ない場合、動作しない可能性がありますのでご注意ください。

・WORLDのオプション

ピッチ平滑化(SmoothPitch)、フォルマント平滑化(SmoothFormant)、息成分を強く(EnhanceBreathiness)するオプションです。ピッチやフォルマントを滑らかにしたり息成分を強めにしたりすることができ、それぞれ0~100[%]でエフェクトの強さを設定できます。
声に色々な変化を加えられる一方で、アタックが弱くなったりノイズが大きくなる場合がございます。歌声ライブラリによって掛かり方も異なりますので、適宜調整してください。

・オンライン版について

オンライン版ではNEUTRINOの全機能をご利用いただけます。ウェブブラウザ上で動作が完結しCloud GPUによる高速レンダリングをご利用いただけます。スマートフォンでも動作いたしますのでよろしければお試しください。
オンライン版のセットアップ手順はこちらの記事をご覧ください。

・入力可能な歌詞

「未定義の歌詞、もしくは歌詞が入力されていない音符があります。該当の音符の歌詞をひらがな・カタカナに修正してください。」というエラーメッセージが表示された場合、音声の生成自体が停止されます。
musicXMLtoLabel.exeの実行ログに該当の音符の小節番号・歌詞が表示されておりますので、ひらがな、もしくはカタカナの歌詞に修正してください。
「」のように何も表示されていない場合は空白の歌詞(歌詞が入力されていない)の音符がありますので、そちらも適宜歌詞を入力してください。
使用可能な文字については、ひらがな・音素一覧表をご覧ください。

GPUについて

Windows版の一部機能(GPUによる高速レンダリング)をご利用いただくには【NVIDIA製のGPU(6GB以上のGPUメモリを推奨)】が必要です。ご利用の前にNVIDIAのドライバーを最新のものへアップデートをしてください。
※参考:アップデート方法はこちら

複数枚のGPUでのレンダリングにも対応しており、基本設定はマルチGPU設定になっております。NEUTRINO及びNSFのオプション(-m)をシングルGPU(-g {GPU番号})に変更することで指定したGPUが自動選択されます。もし複数枚GPUでの処理が上手くいかない場合はこちらをお試しください。

NVIDIA製のGPUが見つからない場合、「CPUモードで実行します」というメッセージと共にCPUでの処理に自動で移行します。オプション(-m)を外すことでもCPUモードで動作させることができます。

・限定配布ライブラリ(琴葉茜・葵・夜語トバリ)の動作確認について

全ての歌声ライブラリにおいて必要な動作環境は同じとなっております。
限定配布ライブラリ(琴葉茜・琴葉葵・夜語トバリ)の導入をご検討の際は、他の歌声ライブラリで一度動作確認をしていただくと確実です。

NEUTRINO Diffusion – Muon v2.5.1 アップデート内容(2024/5/10)

共通

ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。

NEUTRINO Diffusion – Muon v2.5.0 アップデート内容(2024/3/13)

共通

onnxruntime フレームワークのバージョンをアップデートしました。(v1.16.3 -> v1.17.1
デフォルトの歌声ライブラリ(めろう)をアップデートしました。(v2.4.1 -> v2.5.2
デフォルトの歌声ライブラリにナクモを追加しました。

windows
CUDAのバージョンをアップデートしました。(11.8 -> 12.3)

online

CUDAのバージョンをアップデートしました。(11.8 -> 12.3)
CUDA12対応に伴い、CUDA関連のファイルを整理しました。

NEUTRINO Diffusion – Muon v2.4.0 アップデート内容(2024/1/12)

共通

ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntime フレームワークのバージョンをアップデートしました。(v1.16.1 -> v1.16.3
デフォルトの歌声ライブラリ(めろう)をアップデートしました。(v2.3.0 -> v2.4.1

macOS

コンパイラ変更に伴い、同梱ファイルの整理を行いました。

NEUTRINO Diffusion – Muon v2.3.2 アップデート内容(2023/12/16)

online

Google Colabの仕様変更に伴い、CUDA関連のファイルを追加しました。

NEUTRINO Diffusion – Muon v2.3.1 アップデート内容(2023/10/30)

共通

ヘルプ表示、ファイルの参照先などの軽微な修正を行いました。

NEUTRINO Diffusion – Muon v2.3.0 アップデート内容(2023/10/27)

共通

ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntime フレームワークのバージョンをアップデートしました。(v1.15.0 -> v1.16.1
デフォルトの歌声ライブラリ(めろう)をアップデートしました。(v2.2.1 -> v2.3.0
モデルのロード完了時に進捗を表示するように変更しました。

windows

NEUTRINO のGPU 版の一部処理をCPU からGPU に変更しました。

online

NEUTRINO のGPU 版の一部処理をCPU からGPU に変更しました。

NEUTRINO Diffusion – Muon v2.2.0 アップデート内容(2023/07/14)

共通

ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
NSF の出力音量を変更しました。
WORLD の出力音量を変更しました。

NEUTRINO Diffusion – Muon v2.1.0 アップデート内容(2023/06/16)

共通

ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntimeフレームワークのバージョンをアップデートしました。(v1.14.1 -> v1.15.0

NEUTRINO Diffusion – Muon v2.0.0 アップデート内容(2023/04/28)

共通

初オープンリリース版

お願い

感想や要望、バグなどございましたらメール又はお問い合わせフォームからお願いします。

ご支援について

・PIXIV FANBOX / OFUSE

いただいた支援金は、活動費・機器購入費・収録関連費に充てさせていただいております。
PIXIV FANBOXは月額継続型、OFUSEは単発型の支援形式となります。

PIXIV FANBOXでは月1程度のペースでβテスト版の先行配布、日頃の製作の様子などを投稿しております。 各プランで内容に差はありません。
OFUSEではアカウント登録不要で支援者が支援額を自由に設定しファンレターを送ることが可能です。 こちらはいわゆる投げ銭形式となっており、支援に対する明確なリターンはございません。 開発者として応援のメッセージがとても励みになります。

・ニコニ・コモンズ

ニコニ・コモンズに「NEUTRINO – AI Singing Voice Generator」を登録しております。
ニコニコに作品を投稿する際は親作品に登録していただければ幸いです。

追伸

不具合・バグをご報告いただきました方々に深く感謝申し上げます。
引き続きご支援、ご助力頂けますよう心よりお願い申し上げます。

Tags: