Stable Audio Open - オープンソースのオーディオサンプルおよびサウンドデザイン向けモデル

Stable Audio Openのリリースを大変嬉しく思います。これは、テキストプロンプトを使用して短いオーディオサンプル、サウンドエフェクト、プロダクションエレメントを生成するために最適化されたオープンソースモデルです。このリリースは、サウンドデザイナー、ミュージシャン、クリエイティブコミュニティを支援するための大きなマイルストーンとなります。

Stable Audio Openとは?

Stable Audio Openは、シンプルなテキストプロンプトから最大47秒の高品質なオーディオデータを生成することができます。専門的なトレーニングにより、ドラムビート、楽器のリフ、アンビエントサウンド、フォーリー録音など、音楽制作やサウンドデザインに必要なオーディオサンプルの作成に最適です。

特徴と利点

  1. 高品質なオーディオ生成:テキストプロンプトから簡単に短いオーディオサンプルを生成。

  2. カスタムオーディオデータの微調整:ユーザー自身のオーディオデータでモデルを微調整可能。

  3. 多様なオーディオ用途:ドラムビート、楽器のリフ、フォーリー録音など多様な用途に対応。

Stable Audioとの違い

商業版のStable Audioは、高品質で構成の整った音楽トラックを最大3分間生成する能力があります。また、オーディオからオーディオへの生成や、複数のパートが一貫した音楽の作成も可能です。

一方、Stable Audio Openは、オーディオサンプル、サウンドエフェクト、プロダクションエレメントに特化しています。短い音楽クリップを生成することはできますが、フルソングやメロディ、ボーカルには最適化されていません。このオープンモデルは、責任ある開発とクリエイティブコミュニティとの協力を優先しながら、サウンドデザインのための生成AIの一端を垣間見せます。

モデルのトレーニングデータ

新しいモデルは、FreesoundおよびFree Music Archiveのオーディオデータを使用してトレーニングされました。これにより、クリエイターの権利を尊重しながらオープンなオーディオモデルを作成することができました。

Stable Audio Openのモデルウェイトは、Hugging Faceで入手可能です。サウンドデザイナー、ミュージシャン、開発者、オーディオ愛好家の皆さんに、モデルをダウンロードしてその能力を探索し、フィードバックを提供していただくことをお勧めします。

まとめと今後の展望

これはオープンで責任あるオーディオ生成能力に向けた一歩に過ぎません。私たちは、クリエイティブコミュニティと手を取り合って研究と開発を続けていくことを楽しみにしています。AIオーディオのオープンな探求を始めましょう!

次回もお楽しみに!
ニュースレターでAIの最新のニュースを配信中!
今だけ無料登録中配信中です!