Vita complicata per i bassisti, dice Riccardo Sada. Hai letto Battisti? No, dicevamo bassisti.
Gli strumenti di intelligenza artificiale generativa stanno diventando sempre più avanzati e vengono ora utilizzati per produrre vari contenuti personalizzati, tra cui immagini, video, loghi e registrazioni audio. I ricercatori dei Sony Computer Science Laboratories (CSL) hanno lavorato nel decennio che ha preceduto il 2024 su strumenti per produttori e artisti che possano aiutarli nella creazione di nuova musica. Il ricercatore Marco Pasini e i suoi colleghi Stefan Lattner e Maarten Grachten della Sony CSL hanno introdotto un nuovo modello di diffusione latente in grado di creare accompagnamenti di basso realistici ed efficaci per brani musicali. I modelli di diffusione sono tecniche di deep learning che possono imparare a generare immagini, audio o altri campioni che catturano la struttura complessiva alla base di un set di dati.
E perché sono in crisi, ‘sti bassisti?
“La generazione di audio musicale è attualmente un argomento di ricerca popolare, con molti istituti, aziende e start-up che esplorano vari casi d’uso”, ha detto il coautore Lattner a Tech Xplore. “Noi (di Sony CSL) miriamo ad assistere gli artisti e i produttori musicali nel loro flusso di lavoro fornendo strumenti basati sull’intelligenza artificiale. Tuttavia, abbiamo notato che l’approccio più comune degli strumenti di intelligenza artificiale genera brani musicali completi da zero (spesso controllati solo tramite input di testo) non è molto interessante per gli artisti”.
Analizzando le tecniche di generazione musicale proposte in passato, i ricercatori di Sony CSL hanno scoperto nello specifico che molti strumenti non consentivano agli utenti di creare musica in linea con le loro preferenze e il loro stile unici. “Gli artisti necessitano di strumenti che possano adattarsi al loro stile unico e che possano essere utilizzati in qualsiasi momento del processo di produzione musicale”, ha affermato Lattner. “Pertanto, uno strumento musicale generativo dovrebbe essere in grado di analizzare e tenere conto di qualsiasi creazione intermedia dell’artista nel proporre nuovi suoni”.
I ricercatori hanno introdotto un modello in grado di generare automaticamente accompagnamenti di basso che corrispondono allo stile e alla tonalità…
Di che? di una traccia musicale in ingresso, indipendentemente dagli elementi in essa contenuti (ad esempio voce, chitarra, batteria, ecc.). Lo strumento proposto è stato progettato per generare linee di basso incisive che si adattino perfettamente alle canzoni, assistendo così produttori e artisti nel loro processo creativo. “Il nostro sistema può elaborare qualsiasi tipo di mix musicale che contenga una o più fonti, come voce, chitarra e quanto altro. Consiste in un codificatore automatico audio che codifica in modo efficiente il mix in una rappresentazione compressa, catturando l’essenza della musica. Questa codifica compressa viene quindi utilizzata come input per un’architettura appositamente progettata basata su una tecnologia generativa all’avanguardia chiamata ‘diffusione latente’. Questo metodo genera dati in uno spazio compresso, migliorando le prestazioni e la qualità”.
Lattner e i suoi colleghi hanno addestrato il loro modello di diffusione latente su un set di dati di codifiche di basso contenenti vari esempi di tracce musicali. Ecco perché i bassisti sono in difficoltà…
Nel corso del tempo, il modello ha imparato a creare una linea di basso che “suona insieme”, contemporaneamente, a una traccia musicale entrante. “Il nostro sistema ha un vantaggio unico: può generare linee di basso coerenti di qualsiasi lunghezza, invece di durate fisse. Abbiamo anche proposto una tecnica chiamata ‘style grounding’ che consente agli utenti di controllare il timbro e lo stile esecutivo dei bassi generati fornendo un file audio di riferimento”. I ricercatori hanno valutato il loro modello di diffusione latente in una serie di test e hanno scoperto che poteva generare accompagnamenti di basso appropriati per mix di brani arbitrari. In particolare, le linee di basso creative prodotte corrispondevano perfettamente alla tonalità e al ritmo di un mix musicale in ingresso.
“Abbiamo presentato quello che crediamo sia il primo modello di diffusione latente condizionale progettato specificamente per attività di generazione di accompagnamenti basati su audio, addestrandolo su dati accoppiati di mix e linee di basso corrispondenti, il modello apprende il concetto di coerenza musicale”, ha affermato Lattner.
In futuro, il nuovo strumento per la generazione di linee di basso creato da Pasini e dai suoi colleghi potrebbe essere utilizzato da musicisti, produttori e compositori di tutto il mondo aiutandoli a scrivere o migliorare le parti strumentali delle loro tracce. I ricercatori lavorano anche su batteria, pianoforte, chitarra, archi ed accompagnamenti di effetti sonori.
“Con l’ulteriore sviluppo, immaginiamo strumenti creativi in cui gli utenti possano personalizzare il basso o altri accompagnamenti che possano integrare perfettamente con le loro composizioni”, ha aggiunto Lattner.
“Ulteriori direzioni per la ricerca futura implicano la fornitura di meccanismi di controllo aggiuntivi e intuitivi: oltre ai riferimenti audio, gli utenti possono guidare lo stile attraverso suggerimenti di testo in formato libero o tag stilistici descrittivi. Più in generale, prevediamo di collaborare direttamente con artisti e compositori per perfezionare approfondire e convalidare questi strumenti di accompagnamento dell’intelligenza artificiale per migliorare al meglio le loro esigenze creative”.
Riccardo Sada x Sada Says x AllaDisco