NEUTRINO – Muon v2.x系アップデート
NEUTRINO – Muon v2.x 概要
NEUTRINOの正式リリースより一年が経ち、第二世代(Muon / ミューオン)へと進化いたしました。アルゴリズム・モデルなど全面的にリニューアルを実施しました。
第二世代(Muon / ミューオン)では最新の生成AIモデル、Diffusionモデルを採用しより肉声感の高い歌唱表現豊かな音声の生成が可能になりました。推論の度に音声が変化、品質・処理速度を変更可能になるなど機能面でもパワーアップしております。
皆様の制作の一助になれば幸いです。
pixivFANBOXにて先行してテスト版を公開しております。
もしよろしければご支援・ご助力いただければ幸いです。
目次
ダウンロード
下記のリンクより最新版のNEUTRINOがダウンロードできます。
NEUTRINOダウンロード
NEUTRINOダウンロード(Google Drive)
オンライン版のセットアップ手順はこちらの記事をご覧ください。
Linuxでのセットアップ手順はこちらの記事をご覧ください。
アップデート履歴
NEUTRINO Diffusion – Muon v2.6.1 (2024/10/11)
・online
前回のバージョンアップで行ったGoogle Colab のノートブックの設定の変更について、再度変更を行いました。(standard版→advanced版、WORLD処理の追加)
NEUTRINO Diffusion – Muon v2.6.0 (2024/9/20)
・共通
ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntime フレームワークのバージョンをアップデートしました。(v1.17.1 -> v1.19.2)
デフォルトの歌声ライブラリ(めろう・ナクモ)をアップデートしました。(v2.5.x -> v2.6.0)
・windows
CUDAのバージョンをアップデートしました。(12.3 -> 12.6)
cuDNNのバージョンをアップデートしました。(8.x -> 9.3)
・online
CUDAのバージョンをアップデートしました。(12.3 -> 12.6)
cuDNNのバージョンをアップデートしました。(8.x -> 9.3)
CUDAのバージョンをアップデートしました。(11.8 -> 12.3)
CUDA・cuDNNのバージョン変更に伴い、CUDA関連のファイルを追加しました。
Google Colabのノートブックの設定を変更しました。(advanced版→standard版、WORLD処理の削除など)
NEUTRINO Diffusion – Muon v2.5.1 (2024/5/10)
・共通
ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
NEUTRINO Diffusion – Muon v2.5.0 (2024/3/13)
・共通
onnxruntime フレームワークのバージョンをアップデートしました。(v1.16.3 -> v1.17.1)
デフォルトの歌声ライブラリ(めろう)をアップデートしました。(v2.4.1 -> v2.5.2)
デフォルトの歌声ライブラリにナクモを追加しました。
・windows
CUDAのバージョンをアップデートしました。(11.8 -> 12.3)
・online
CUDAのバージョンをアップデートしました。(11.8 -> 12.3)
CUDA12対応に伴い、CUDA関連のファイルを整理しました。
NEUTRINO Diffusion – Muon v2.4.0 (2024/1/12)
・共通
ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntime フレームワークのバージョンをアップデートしました。(v1.16.1 -> v1.16.3)
デフォルトの歌声ライブラリ(めろう)をアップデートしました。(v2.3.0 -> v2.4.1)
・macOS
コンパイラ変更に伴い、同梱ファイルの整理を行いました。
NEUTRINO Diffusion – Muon v2.3.2 (2023/12/16)
・online
Google Colabの仕様変更に伴い、CUDA関連のファイルを追加しました。
NEUTRINO Diffusion – Muon v2.3.1 (2023/10/30)
・共通
ヘルプ表示、ファイルの参照先などの軽微な修正を行いました。
NEUTRINO Diffusion – Muon v2.3.0 (2023/10/27)
・共通
ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntime フレームワークのバージョンをアップデートしました。(v1.15.0 -> v1.16.1)
デフォルトの歌声ライブラリ(めろう)をアップデートしました。(v2.2.1 -> v2.3.0)
モデルのロード完了時に進捗を表示するように変更しました。
・windows
NEUTRINO のGPU 版の一部処理をCPU からGPU に変更しました。
・online
NEUTRINO のGPU 版の一部処理をCPU からGPU に変更しました。
NEUTRINO Diffusion – Muon v2.2.0 (2023/07/14)
・共通
ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
NSF の出力音量を変更しました。
WORLD の出力音量を変更しました。
NEUTRINO Diffusion – Muon v2.1.0 (2023/06/16)
・共通
ピッチ特徴量(f0)の推定精度を改善しました。
WORLD 特徴量(mgc / bap)の推定精度を改善しました。
onnxruntimeフレームワークのバージョンをアップデートしました。(v1.14.1 -> v1.15.0 )
NEUTRINO Diffusion – Muon v2.0.0 (2023/04/28)
・共通
初オープンリリース版
備考
・スタイルシフトオプション
上級者向けのオプションになります。内部的には楽譜全体をNキー上げて出力後、ピッチ変更機能でNキー分ピッチを下げる、といった処理を行います。上手く活用することで、得意な音域の歌い方や低いキーの落ち着いた歌い方を出す、といったような使い方が可能です。
最初はRun.batのStyleShiftを-3~3程度の整数値に設定して試すのが良いかと思います。例えば”2″に設定すると2個上のキーの歌い方、”-2″にすると2個下のキーの歌い方をトレースします。
応用的な使い方としては、”StyleShift=-1″, “StyleShift=0”, “StyleShift=1″のようにあらかじめ3パターンを出力しておき、それぞれの良い部分を選択することで複数テイクを収録したような制作フローにすることも可能です。
・NSFについて
メモリ使用量は楽譜中のフレーズの長さに依存します。 休符またはブレス記号で囲まれた区間が1フレーズとなります。メモリ / GPUメモリが少ない場合、動作しない可能性がありますのでご注意ください。
・WORLDのオプション
ピッチ平滑化(SmoothPitch)、フォルマント平滑化(SmoothFormant)、息成分を強く(EnhanceBreathiness)するオプションです。ピッチやフォルマントを滑らかにしたり息成分を強めにしたりすることができ、それぞれ0~100[%]でエフェクトの強さを設定できます。声に色々な変化を加えられる一方で、アタックが弱くなったりノイズが大きくなる場合がございます。歌声ライブラリによって掛かり方も異なりますので、適宜調整してください。
・オンライン版について
オンライン版ではNEUTRINOの全機能をご利用いただけます。ウェブブラウザ上で動作が完結しCloud GPUによる高速レンダリングをご利用いただけます。スマートフォンでも動作いたしますのでよろしければお試しください。
オンライン版のセットアップ手順はこちらの記事をご覧ください。
・入力可能な歌詞
「未定義の歌詞、もしくは歌詞が入力されていない音符があります。該当の音符の歌詞をひらがな・カタカナに修正してください。」というエラーメッセージが表示された場合、音声の生成自体が停止されます。
musicXMLtoLabel.exeの実行ログに該当の音符の小節番号・歌詞が表示されておりますので、ひらがな、もしくはカタカナの歌詞に修正してください。「」のように何も表示されていない場合は空白の歌詞(歌詞が入力されていない)の音符がありますので、そちらも適宜歌詞を入力してください。
使用可能な文字については、ひらがな・音素一覧表をご覧ください。
・GPUについて
Windows版の一部機能(GPUによる高速レンダリング)をご利用いただくには【NVIDIA製のGPU(6GB以上のGPUメモリを推奨)】が必要です。ご利用の前にNVIDIAのドライバーを最新のものへアップデートをしてください。
※参考:アップデート方法はこちら
複数枚のGPUでのレンダリングにも対応しており、基本設定はマルチGPU設定になっております。NEUTRINO及びNSFのオプション(-m)をシングルGPU(-g {GPU番号})に変更することで指定したGPUが自動選択されます。もし複数枚GPUでの処理が上手くいかない場合はこちらをお試しください。
NVIDIA製のGPUが見つからない場合、「CPUモードで実行します」というメッセージと共にCPUでの処理に自動で移行します。オプション(-m)を外すことでもCPUモードで動作させることができます。
NEUTRINO – Electron v1.xからの変更点など
・NEUTRINO
アルゴリズム・モデルを全面的に刷新いたしました。推論精度・処理速度・ファイルサイズなどが改良されております。全体的な安定性も改善されており、ビブラートなどの歌唱表現も豊かになっております。
・NSF
新バージョンではNSFを主体としたシステムへと変更し最適化を行いました。音声品質の上限が上がり、より肉声感の高い歌唱表現豊かな音声の生成が可能になりました。
・WORLD
新バージョンではNSFを主体としたシステムとなり、WORLDはサブのボコーダーとなりました。NSFとの差別化を図るために、音色はレガシーで伝統的なボコーダーらしさ感じられる質感を保ちつつ、歌い方は滑らかさを重視するという方向性で仕上げております。楽曲によって使い分けていただければ幸いです。
・処理速度
NEUTRINO・NSFの処理速度を三段階の速度から選択できるようになりました。advanced / standard / elementsの三段階でInferenceModeを4~2にすることで選択ができます。
* * * * * * * * * *
advanced:InferenceMode=4
高品質・GPU向け
48kHz -16bit
standard:InferenceMode=3
中品質・CPU向け(Passmark score 10000~)
48kHz – 16bit
elements:InferenceMode=2
低品質・ローエンドCPU向け(Passmark score 2500~)
24kHz – 16bit (NSF)、48kHz – 16bit(WORLD)
* * * * * * * * * *
参考(CPU性能比較表【2025年最新版】)
最新のゲーミングPCクラス~10年前のPCクラスまで幅広いユーザーに対応しております。ご利用のPCのスペック・用途に応じて使い分けていただければ幸いです。
・出力音声
生成毎に音声が変化するようになりました。ボーカリストにリテイクを依頼するような感覚で制作を進めることができます。最初に複数テイクを出力しておき、お気に入りのテイクを選択していくことでよりクオリティを上げることができます。
限定配布ライブラリ(琴葉茜・葵・夜語トバリ)の動作確認について
全ての歌声ライブラリにおいて必要な動作環境に差異はございません。限定配布ライブラリ(琴葉茜・琴葉葵・夜語トバリ)をご検討の際は、他の歌声ライブラリで一度動作確認をしていただくと確実です。
既知の不具合
・推奨音域外で不自然な音が出力される
StyleShift・PitchShiftなどで元となる音域を変更すると改善される場合がございます。
・一部の箇所にノイズが発生している
再度出力していただくと改善される場合がございます。
お願い
感想や要望、バグなどございましたらメール又はお問い合わせフォームからお願いします。
ご支援について
PIXIV FANBOX
いただいた支援金は、活動費・機器購入費・収録関連費に充てさせていただいております。
pixivFANBOXでは月1程度のペースでβテスト版の先行配布、日頃の製作の様子などを投稿しております。 各プランで内容に差はありません。
ニコニ・コモンズ
ニコニ・コモンズに「NEUTRINO – AI Singing Voice Generator」を登録しております。
ニコニコに作品を投稿する際は親作品に登録していただければ幸いです。
追伸
不具合・バグをご報告いただきました方々に深く感謝申し上げます。
引き続きご支援、ご助力頂けますよう心よりお願い申し上げます。