Musik och artificiell intelligens

Artificiell intelligens och musik (AIM) är ett vanligt ämne i den internationella datormusikkonferensen, Computing Society Conference och den internationella gemensamma konferensen om artificiell intelligens . Den första internationella datormusikkonferensen (ICMC) hölls 1974 vid Michigan State University . Aktuell forskning inkluderar tillämpningen av AI i musikkomposition , framförande , teori och digital ljudbehandling .

En viktig del av detta område är utvecklingen av musikprogram som använder AI för att producera musik. Som med applikationer inom andra områden, simulerar AI i musik också mentala uppgifter. En framträdande egenskap är förmågan hos en AI-algoritm att lära sig baserat på tidigare data, till exempel i datorkompanjemangsteknik, där AI:n kan lyssna på en mänsklig artist och utföra ackompanjemang. Artificiell intelligens driver också interaktiv kompositionsteknik, där en dator komponerar musik som svar på ett liveframträdande. Det finns andra AI-applikationer inom musik som täcker inte bara musikkomposition, produktion och framförande utan också hur musik marknadsförs och konsumeras. Flera musikspelarprogram har också utvecklats för att använda röstigenkänning och naturligt språkbehandlingsteknik för musikröststyrning.

Historia

1960 publicerade den ryske forskaren Rudolf Zaripov en världsomspännande första artikel om algoritmisk musikkomponering med hjälp av datorn " Ural-1 ".

1965 uruppförde uppfinnaren Ray Kurzweil ett pianostycke skapat av en dator som kunde mönsterigenkänna i olika kompositioner. Datorn kunde sedan analysera och använda dessa mönster för att skapa nya melodier. Datorn debuterade i frågesportprogrammet I've Got a Secret , och ställde värdarna förvånad tills filmstjärnan Henry Morgan gissade Rays hemlighet.

1997 verkade ett program för artificiell intelligens vid namn Experiment in Musical Intelligence ( EMI) överträffa en mänsklig kompositör i uppgiften att komponera ett musikstycke för att imitera stilen Bach .

Programvaruapplikationer

Interaktiva poäng

Multimediascenarier i interaktiva partitur representeras av tidsmässiga objekt, tidsmässiga relationer och interaktiva objekt. Exempel på temporala objekt är ljud, videor och ljuskontroller. Temporala objekt kan triggas av interaktiva objekt (vanligtvis startade av användaren) och flera temporära objekt kan exekveras samtidigt. Ett temporärt objekt kan innehålla andra temporära objekt: denna hierarki tillåter oss att styra början eller slutet av ett temporalt objekt genom att styra början eller slutet av dess överordnade objekt. Hierarki är ständigt närvarande i all slags musik: Musikstycken hierarkiseras ofta av rörelser, delar, motiv, mått, bland annat segmentering.

Datorkomp (Carnegie Mellon University)

Computer Music Project vid CMU utvecklar datormusik och interaktiv prestationsteknik för att förbättra mänsklig musikupplevelse och kreativitet. Denna tvärvetenskapliga ansträngning bygger på musikteori , kognitionsvetenskap , artificiell intelligens och maskininlärning , mänsklig datorinteraktion , realtidssystem, datorgrafik och animering, multimedia , programmeringsspråk och signalbehandling .

Kasta

ChucK, utvecklat vid Princeton University av Ge Wang och Perry Cook, är ett textbaserat, plattformsoberoende språk som tillåter syntes, komposition, framförande och analys av musik i realtid. Den används av SLOrk (Stanford Laptop Orchestra) och PLOrk (Princeton Laptop Orchestra).

Jukedeck

Jukedeck var en webbplats som lät människor använda artificiell intelligens för att generera original, royaltyfri musik för användning i videor. Teamet började bygga musikgenereringstekniken 2010, bildade ett företag kring den 2012 och lanserade webbplatsen offentligt 2015. Tekniken som användes var ursprungligen ett regelbaserat algoritmiskt sammansättningssystem , som senare ersattes med artificiella neurala nätverk . Webbplatsen användes för att skapa över 1 miljon musikstycken, och varumärken som använde den var bland annat Coca-Cola , Google , UKTV och Natural History Museum, London . 2019 förvärvades företaget av ByteDance .

MorpheuS

MorpheuS är ett forskningsprojekt av Dorien Herremans och Elaine Chew vid Queen Mary University of London , finansierat av ett Marie Skłodowská-Curie EU-projekt. Systemet använder en optimeringsmetod baserad på en variabel grannskapssökningsalgoritm för att omvandla befintliga mallbitar till nya stycken med en inställd nivå av tonspänning som ändras dynamiskt genom hela stycket. Denna optimeringsmetod möjliggör integration av en mönsterdetekteringsteknik för att genomdriva långsiktig struktur och återkommande teman i den genererade musiken. Verk komponerade av MorpheuS har framförts på konserter i både Stanford och London.

AIVA

AIVA skapades i februari 2016 i Luxemburg och är ett program som producerar ljudspår för alla typer av media . Algoritmerna bakom AIVA är baserade på djupinlärningsarkitekturer AIVA har också använts för att komponera ett rockspår som heter On the Edge , samt en poplåt Love Sick i samarbete med sångerskan Taryn Southern , för skapandet av hennes 2018 års album "I am AI".

Google Magenta

Googles Magenta-team har publicerat flera AI-musikapplikationer och tekniska dokument sedan de lanserades 2016. 2017 släppte de NSynth -algoritmen och datauppsättningen och ett musikinstrument för hårdvara med öppen källkod, designat för att underlätta för musiker att använda algoritmen. Instrumentet användes av kända artister som Grimes och YACHT i deras album. 2018 släppte de en pianoimprovisationsapp som heter Piano Genie. Detta följdes senare av Magenta Studio, en svit med 5 MIDI-plugins som tillåter musikproducenter att utveckla befintlig musik i sin DAW. År 2023 publicerade deras maskininlärningsteam ett tekniskt dokument på Github som beskrev MusicLM, en privat text-till-musik-generator som utvecklats.

Riffusion

Genererat spektrogram från prompten " bossa nova med elgitarr " (överst), och det resulterande ljudet efter konvertering (nederst)

Riffusion är ett neuralt nätverk , designat av Seth Forsgren och Hayk Martiros, som genererar musik med hjälp av bilder av ljud snarare än ljud. Den skapades som en finjustering av Stable Diffusion , en befintlig modell med öppen källkod för att generera bilder från textmeddelanden, på spektrogram . Detta resulterar i en modell som använder textuppmaningar för att generera bildfiler, som kan överföras genom en omvänd Fourier-transform och konverteras till ljudfiler. Även om dessa filer bara är flera sekunder långa, kan modellen också använda latent utrymme mellan utgångar för att interpolera olika filer tillsammans. Detta åstadkoms med hjälp av en funktion i den stabila diffusionsmodellen som kallas img2img .

Den resulterande musiken har beskrivits som "de otro mundo", även om den sannolikt inte kommer att ersätta konstgjord musik. Modellen gjordes tillgänglig den 15 december 2022, med koden också fritt tillgänglig på GitHub . Det är en av många modeller som kommer från Stable Diffusion.

Riffusion klassificeras inom en undergrupp av AI-text-till-musik-generatorer. I december 2022 använde Mubert på liknande sätt Stable Diffusion för att förvandla beskrivande text till musikslingor. I januari 2023 publicerade Google en artikel om sin egen text-till-musik-generator som heter MusicLM.

upphovsrätt

Frågan om vem som äger upphovsrätten till AI-musikutgångar är fortfarande osäker. När AI används som ett samarbetsverktyg som en funktion av den mänskliga kreativa processen, kommer sannolikt nuvarande amerikanska upphovsrättslagar att gälla. Musikutgångar som enbart genereras av AI ges dock inte upphovsrättsskydd. I Compendium of US Copyright Office Practices har Copyright Office uttalat att det inte skulle ge upphovsrätt till "verk som saknar mänskligt författarskap" och "kontoret kommer inte att registrera verk som producerats av en maskin eller enbart mekanisk process som fungerar slumpmässigt eller automatiskt utan någon kreativ input eller intervention från en mänsklig författare." I februari 2022 avslog Copyright Review Board en ansökan om att upphovsrätta AI-genererade konstverk på grund av att det "saknade det mänskliga författarskap som krävs för att upprätthålla ett anspråk på upphovsrätt."

Se även

Vidare läsning

Understanding Music with AI: Perspectives on Music Cognition . Redigerat av Mira Balaban, Kemal Ebcioglu och Otto Laske. AAAI Press.
Proceedings of a Workshop som hölls som en del av AI-ED 93 , World Conference on Artificial Intelligence in Education on Music Education: An Artificial Intelligence Approach
Tanguiane (Tangian), Andranick (1993). Artificiell perception och musikigenkänning . Föreläsningsanteckningar i artificiell intelligens. Vol. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4 .

externa länkar