Samplabの今話題のAI技術でテキストからループが作れるTextToSampleの紹介
Samplabさんからテキストで入力した内容を音に変換するプラグイン「TextToSample」がリリースされました。
まだまだ実験的な要素が強いですが、意外と使える音が生成されます。
あとMusicGen Model CardのライセンスがCC BY-NC 4.0なので、商用利用はNGだと思います。
(生成されたサンプルもNGなのかはちょっと判りません)
音デモ
オフィシャルのデモ動画だと生成時間が短いですが、利用しているCPUスペックにかなり依存します。
私のPC Ryzen 5 5600Gだと6秒位のLoop生成に1分以上掛かります。
ですから幾つか生成したループがありますので、聴いてみて下さい。
キーワードは「drumnbass」や「EDM」等です。
最初は異なるサンプルを用意してその続きを生成する事も出来ます。
(過度な期待は禁物)
動画では最初に再生した内容から更に生成して、更に秒数を8秒にして生成したのが最後になっているLoopです。
キーワードで「dubstep」は結構いい結果になりました。
注意点
私の環境だと「Samplab」もインストールしてあるのですが、なぜか「Samplab」が起動する現象が出ました。
応急処置として「Samplab」のフォルダを別の場所に移すと「TextToSample」が無事起動しました。
もし同じようになってしまう方は「Samplab」のフォルダごと別の場所に移して試してみて下さい。
概要
オフィシャルにQ&A位しか情報がないので、その日本語訳を載せときます。
Q.TextToSampleを使うのにお金は必要ですか?
A.いいえ。Q.TextToSampleの目的は何ですか?
A.TextToSampleの目的は、プロデューサーのコミュニティが最先端の生成AIモデルを実験できるようにすることです。私たちは、特にコンピュータ上でローカルに実行する場合に、これらのモデルで現在可能なことを示したいと考えています。TextToSampleの目的は、人間のミュージシャンに取って代わることではありません。Q.TextToSampleのライセンスは?
A.TextToSampleはMetaのMusicGenモデルの重みを使用しており、CC BY-NC 4.0でライセンスされています。特に “small “モデルのウェイトが使われています。ライセンスと使用目的についての詳細はこちらをご覧ください。Q.どのようなデータで学習されたのですか?
A.TextToSampleはMetaのMusicGenモデルの重みを使用しています。モデルとそのモデルで学習させたデータについての詳細はこちらをご覧ください。Q.インターネット接続は必要ですか?
A.すべての計算はあなたのコンピュータ上でローカルに行われます。インターネット接続が必要なのは、TextToSampleを初めて開いたときにモデルをダウンロードするときだけです。Q.どのようなハードウェアが必要ですか?
A.Neural Engine搭載のApple M1チップかGPUを強くお勧めします。そうでないと、モデルの音声生成に時間がかかります。Q.どのOSをサポートしていますか?
A.Windowsです:10以上
MacOS: 12以上Q.VST2バージョンはありますか?
A.VST2プラグインは製造中止となり、過去にVST2プラグインを作成した開発者しか配布できないため、残念ながらVST2ライセンスを取得することができません。どうしてもVST2プラグインが必要な場合は、KushviewのElementのようなVST3からVST2へのブリッジを使用することをお勧めします。弊社はKushview社とは提携しておりませんので、Kushview社の製品がTextToSampleで動作することについての責任は負いかねます。
ダウンロード
ダウンロードに登録は必要ありません。
上記リンクより遷移し、「Download TextToSample」をクリックすると利用しているOSにあったインストーラーがダウンロードされます。
インストール
WinはVST3なので、デフォルトのインストールで問題ありません。
まとめ
グラフィックに比べ、音の生成系AI技術はまだまだなのかなと感じます。
ただ、エフェクトの再現という点においては着々と技術革新が起きています。
IKさんのTONEXやToneEmpireさんのAI技術によって作成されているプラグイン、あと無料だとNeuralAmpModelerPluginなんかはAI技術による成果です。
音の生成系もそれほど遠くない未来にブレイクスルーが起きるのだと思います。
コメント