NEUTRINO Diffusion – AI Singing Voice Generator へようこそ

NEUTRINO Diffusion – AI Singing Voice Generator へようこそ

NEUTRINO Diffusion – AI Singing Voice Generatorをダウンロードいただきありがとうございます。
この記事ではインストール方法や使い方などを説明します。
※下記内容はNEUTRINO本体付属のReadme(お読みください).pdfにも記載されております。そちらも併せてご覧ください。

はじめに

NEUTRINO Diffusion – AI Singing Voice Generator最新の歌声生成AIを用いた歌声シンセサイザーです。本ソフトウェアはフリーウェアです。
楽譜から発声タイミング・音の高さ・声質・声のかすれ具合などを歌声生成AIで推定します。上記の推定されたパラメータを元にvocoderで音声を合成します。

実際に歌手が楽曲を歌ったデータから特徴を抽出しており、本人の声質だけではなく癖・歌いま
わしなども再現しています。歌詞とメロディーを入力するだけで簡単に歌わせることができます。
実在の歌手に依頼するような感覚で制作を進めることができます。

NEUTRINO の正式リリースより一年が経ち、第二世代(Muon / ミューオン)へと進化いたしまし
た。アルゴリズム・モデルなど全面的にリニューアルを実施しました。
第二世代(Muon / ミューオン)では最新の生成モデル、Diffusion モデルを採用し、より肉声感
の高い歌唱表現豊かな音声の生成が可能になりました。推論の度に音声が変化、品質・処理速度
を変更可能になるなど機能面でもパワーアップしております。

本ソフトの名称はまだ聞いたことのないような楽曲・ジャンルを開拓してほしいという思いを込めて名付けました。あなたの創作・発見の一助になれれば幸いです。

ダウンロード

2024年5月現在、2名の歌声ライブラリ(めろう / Merrow、ナクモ / NAKUMO)が同梱されています。
その他の歌声ライブラリに関しては、 別途ダウンロードの上、model フォルダ以下にコピーして
ご利用ください。
制作した音声ファイルについては、各歌声ライブラリの利用規約の範囲でご利用ください。詳細はmodelフォルダ以下の各歌声ライブラリ付属のlicenseファイルをご覧ください。

インストール

任意のフォルダにダウンロードしたファイルを解凍してください。
Run.bat(またはRun.sh)をダブルクリックで実行後、サンプルの音声ファイル(sample1_syn.wav)がoutputフォルダ以下に出力されていれば正常に動作しています。
アンインストールの際はフォルダ毎削除してください。

オンライン版のセットアップ手順はこちらの記事をご覧ください。
Linuxでのセットアップ手順はこちらの記事をご覧ください。

各モジュールについて

musicXML_to_label

Input  : score/musicxml/*.musicxml
Output : label/full/*.lab
       : label/mono/*.lab

MusicXMLをニューラルネットワークの入力に用いるlabel形式に変換します。
楽譜作成にはMuseScoreを推奨しています。 [ファイル]->[エクスポート]でファイルの種類を非圧縮MusicXMLファイルにすることでMusicXML形式のファイルを出力できます。
他のソフトでは出力が”*.xml”になるので、Run.batのSUFFIXをxmlに変更してください。

NEUTRINO

# predict timing 
Input  : label/full/*.lab
       : model/MERROW/*.bin
Output : label/timing/*.lab

# predict acoustic feature 
Input  : label/full/*.lab
       : label/timing/*.lab
       : model/MERROW/*.bin
Output : output/*.mel-spec, *.f0, *.mgc, *.bap

labelから発声タイミングと音の高さ・声質・声のかすれ具合を推定します。
ModelDirで歌声ライブラリを変更することができます。(MERROW or NAKUMOなど)
NumThreadsで使用するプロセッサ数を変更できます。

StyleShiftで楽譜全体をNキー上げて打ち込み、ピッチ変更機能でNキー分下げるような処理を行うことができます。
Run.batの”StyleShift”という項目を-5~5ぐらいの値に設定してお試しください。
例えば、”2″に設定すると2個上のキーの歌い方、”-2″にすると2個下のキーの歌い方になります。
上手く使うことで、得意な音域の歌い方にしたり、低いキーの落ち着いた歌い方を出すことができます。

NSF

Input  : output/*.mel-spec, *.f0
	 model/MERROW/*.bin
Output : output/*.wav

音の高さ・声質・声のかすれ具合から音声波形をニューラルネット(NSF)で合成します。
NSFはニューラルネットワークを用いて肉声に近い高品質な音声波形を高速に生成する手法の一つです。低音の詰まった感じ(over-smoothing)が無く、クリアでアタック感がある音声です。
適正音域であれば、音質的な外れがほぼ無く品質も安定して高いです。

WORLD

Input  : output/*.f0, *.mgc, *.bap
Output : output/*.wav

音の高さ・声質・声のかすれ具合から音声波形をボコーダー(WORLD)で合成します。
NumThreadsで使用するプロセッサ数を変更できます。
PitchShiftで音高を変えられます。
FormantShiftで声質を変えられます。上げると子供っぽく、下げると大人っぽくなります。(0.85-1.15辺りがお勧めです。)
SmoothPitchでピッチを滑らかにできます。0~100[%]の間で強さを設定できます。
SmoothFormantでフォルマントを滑らかにできます。0~100[%]の間で強さを設定できます。
EnhanceBreathinessで息成分を強くすることができます。0~100[%]の間で強さを設定できます。
声に色々な変化を加えられる一方で、アタックが弱くなったりノイズが大きくなる場合がございます。
歌声ライブラリによって掛かり方も異なりますので、適宜調整してください。

使い方(Windows版)

  1. 楽譜(MusicXML)の作成
    MuseScoreなどの楽譜作成ソフトでxxx.musicxmlを作成
    score/musicxml以下に配置
  2. 設定の編集
    Run.batをメモ帳で開く
    BASENAMEを作成したmusicxmlの名前に変更
  3. コマンドプロンプトを現在のフォルダで起動
    エクスプローラのアドレスバーに「cmd」と入力してEnter
    ※参考リンク
    『コマンドプロンプトを素早く起動する方法』(『現在開いているフォルダから直接開く方法』の項目をご参照ください)
  4. Run.batを実行
    コマンドプロンプト上で”Run.bat”と入力
    output以下に音声ファイルが出力されます。
    logを出力する場合は、”Run.bat > log.txt”などと入力してください。

推奨動作環境

動作環境Windows 10 / 11
MacOS (Apple Silicon / Intel)
オンライン (Google Colab)
Linux (Ubuntu)
CPUIntel Core i5
AMD RYZEN 5
Apple M1
GPU(オプション)NVIDIA製のGPU(4GB以上のGPUメモリを推奨)
メモリ8GB 以上
ディスク空き容量10GB 以上の空き容量

備考

Windows版の一部機能(GPUによる高速レンダリング)をご利用いただくには【NVIDIA製のGPU(6GB以上のGPUメモリを推奨)】が必要です。ご利用の前にNVIDIAのドライバーを最新のものへアップデートをしてください。
※参考:アップデート方法はこちら

オンライン版ではNEUTRINOの全機能をご利用いただけます。ウェブブラウザ上で動作が完結するため、 NVIDIA製のGPUも不要でスマートフォンからでも動作します。
オンライン版のセットアップ手順はこちらの記事をご覧ください。

その他詳細は下記記事をご覧ください。
NEUTRINO Diffusion – Muon v2.x系アップデート
使用可能な文字一覧
MusicXMLについて
NEUTRINO 各Version置き場

ロゴ・アイコンについて

ロゴは設定資料のページよりダウンロードできます。
基本的にはブラックまたはホワイトの複製でご利用ください。カラーの背景や画像、イラストにロゴをのせることは可能です。複雑な背景にロゴを入れる場合、ロゴ全体がはっきりと読めるようにしてください。

学習データについて

モデルの学習には声優・演者様の許諾の上収録した音声データ、もしくは大学などの公的機関か
ら公開されている音声データのみを利用しております。既存の学習済みモデルは利用しておらず、
上記データを用いてフルスクラッチで学習を行っております。権利的・倫理的にクリーンなモデ
ルとなっており、安心してご利用いただけます。

声質変換ツール(VC ツール)でのご利用について

機械学習を用いた声質変換ツールでのNEUTRINO の利用を禁止させていただいております。
詳細は利用許諾契約書をご覧ください。

お願い

感想や要望、バグなどございましたらお問い合わせフォーム・メール・Twitterからお願いいたします。

ご支援について

・ニコニ・コモンズ

ニコニ・コモンズに「NEUTRINO – Neural Singing Synthesizer -」を登録しております。
ニコニコに作品を投稿する際は親作品に登録していただければ幸いです。

・PIXIV-FANBOX

PIXIV FANBOXにて日頃の製作の進捗などを投稿しております。
いただいた支援金は、活動費・機器購入費・収録関連費に充てさせていただきます。
もしよろしければこちらからご支援よろしくお願いいたします。

謝辞

本ソフトウェアの制作にあたり、素晴らしいソフトウェア・データベースをご提供いただきました方々に感謝します。そして、テストやデザインなどご協力ご助言いただきました皆様に心から感謝します。本当にありがとうございました。