Stable Audio, una nueva plataforma de IA generativa de texto a audio, permite a los usuarios crear canciones o audio de fondo de diferentes duraciones.
Stability AI, una empresa de inteligencia artificial conocida por sus visuales generados por IA, lanzó el 1 de julio de 2023 una nueva plataforma de IA generativa de texto a audio llamada Stable Audio.
Stable Audio utiliza un modelo de difusión, el mismo modelo IA que alimenta la plataforma de imágenes más popular de la empresa, Stable Diffusion, pero entrenado con audio en lugar de imágenes.
Los modelos de difusión de audio tienden a generar una duración fija de audio, lo cual es terrible para la producción de música, ya que las canciones pueden variar en duración. La nueva plataforma de Stability AI permite a los usuarios crear sonidos de diferentes duraciones, lo que requiere que la empresa se entrene en música y agregue metadatos de texto sobre el inicio y el final de una canción.
Anteriormente, el audio enseñado en un clip de 30 segundos solo podía generar 30 segundos de audio y crear secciones arbitrarias de canciones. Stability AI afirmó que ajustar el modelo ahora permite a los usuarios de Stable Audio tener más control sobre la duración de la canción.
Stable Audio representa la investigación de última generación en generación de audio del laboratorio de investigación de audio generativo de Stability AI, Harmonai.
Según la empresa, entrenaron Stable Audio con "un conjunto de datos que consta de más de 800,000 archivos de audio que contienen música, efectos de sonido y pistas de un solo instrumento" y metadatos de texto de la empresa de licencia de música en stock AudioSparx. El conjunto de datos representa más de 19,500 horas de sonidos. Al asociarse con una empresa de licencias, Stability AI afirma tener permiso para utilizar material con derechos de autor.
Stable Audio tendrá tres niveles de precios: una versión gratuita que permite a los usuarios crear hasta 45 segundos de audio para 20 pistas al mes; un nivel profesional de $11.99 para 500 pistas de hasta 90 segundos de duración; y una suscripción empresarial, a través de la cual las empresas pueden personalizar su uso y precio. Aquellos que utilicen la versión gratuita no podrán utilizar comercialmente el audio que generen con Stable Audio.
La generación de texto a audio no es nueva, ya que otras grandes empresas en IA generativa han estado experimentando con el concepto. Meta lanzó AudioCraft en agosto de 2022, una suite de modelos de IA generativa que ayudan a crear ERM, sonido y música con un sonido natural a partir de indicaciones. Hasta ahora, solo está disponible para investigadores y algunos profesionales del audio. MusicLM de Google también permite a las personas generar sonidos, pero solo está disponible para investigadores.
Los casos de uso potenciales de Stable Audio incluyen la creación de música de fondo para podcasts o videos, la creación de sonidos para juegos o aplicaciones, y la creación de música personalizada para eventos especiales.