low angle view of lighting equipment on shelf

Fugatto: o “canivete suíço” do som

Um trompete latindo ou um saxofone miando, com a inteligência artificial generativa, esse tipo de transformação sonora já é realidade. Uma equipe de pesquisadores desenvolveu uma ferramenta que está sendo chamada de “canivete suíço do som”: o Fugatto.

Utilizando IA generativa, o Fugatto consegue gerar e transformar sons com base em simples descrições de texto e entradas de áudio. O modelo promete criar sons inéditos e oferecer controle artístico detalhado.

Como Funciona?

De acordo com a NVIDIA (empresa por trás de tudo) o Fugatto — sigla para Foundational Generative Audio Transformer Opus 1 — é capaz de:

Criar músicas do zero a partir de prompts de texto;
Adicionar ou remover instrumentos em faixas existentes;
Alterar o sotaque ou emoção de uma voz;
Gerar sons que mudam ao longo do tempo, como uma tempestade que se transforma no canto dos pássaros ao amanhecer.

Essa tecnologia é resultado de anos de pesquisa e do uso de 2,5 bilhões de parâmetros treinados em GPUs NVIDIA H100 Tensor Core. “Queríamos criar um modelo que entendesse o som como os humanos entendem”, explica Rafael Valle, líder da pesquisa e compositor de orquestra.

Para os profissionais da música, o Fugatto é uma ferramenta que facilita prototipagem rápida e experimentação sonora. “O som é minha inspiração”, diz Ido Zmishlany, produtor multiplatinado. “A ideia de criar sons inteiramente novos na hora, no estúdio, é incrível.”

Além dos músicos, publicitários podem segmentar campanhas para diferentes regiões alterando sotaques e emoções nas narrações, enquanto desenvolvedores de videogames têm à disposição uma ferramenta para ajustar o áudio em tempo real, conforme o progresso do jogador. Até mesmo ferramentas educacionais podem ser personalizadas: imagine um curso falado com a voz de um parente ou amigo.

O Fugatto introduz o conceito de “interpolação temporal”, que permite sons que “evoluem” dinamicamente — como uma tempestade que cresce, ressoa e desaparece. Ele também combina instruções inéditas em conjunto, como criar uma voz falada “triste” com um “sotaque francês”.

Rohan Badlani, pesquisador responsável por essa funcionalidade, compartilha sua experiência com entusiasmo: “Os resultados foram surpreendentes. Senti como se estivesse criando arte, mesmo sendo um cientista da computação.”

Em sua fase de testes, o Fugatto surpreendeu até seus criadores. Valle relembra o momento em que pediram ao modelo para criar uma faixa de música eletrônica com cães latindo no ritmo. “A equipe caiu na gargalhada. Foi ali que percebemos o potencial criativo e divertido desta ferramenta”.

Ao prometer combinar tecnologia de ponta com uma abordagem artística, o Fugatto representa um avanço técnico que pode, quem sabe, trazer um novo capítulo para o presente do som e todos os campos de estudos correlatos.

Publicado

17 de dezembro de 2024

Investigações Musicais

por

Cássio Menin

Tags:

Edição 194