"A ChatGPT for Music Is Here. Inside Suno, the Startup Changing Everything"

Vorstellung der App bei ROLLING STONE:


Auszug (übersetzt):

"„I’m just a soul trapped in this circuitry.“ Die Stimme, die diese Texte singt, ist rau und klagend und taucht in blue notes ein. Dahinter tuckert eine einsame Akustikgitarre, die die Gesangsphrasen mit geschmackvollen Läufen untermalt. Aber hinter der Stimme steckt kein Mensch, keine Hände an der Gitarre. Tatsächlich gibt es keine Gitarre. Innerhalb von 15 Sekunden wurde dieser glaubwürdige, sogar bewegende Blues-Song vom neuesten KI-Modell eines Startups namens Suno generiert. Alles, was es brauchte, um es aus der Leere zu beschwören, war eine einfache Textaufforderung: „Solo-Akustik-Mississippi-Delta-Blues über eine traurige KI.“ Um ganz genau zu sein, ist das Lied das Werk zweier KI-Modelle in Zusammenarbeit: Sunos Modell erstellt die gesamte Musik selbst, während es ChatGPT von OpenAI aufruft, um den Text und sogar einen Titel zu generieren: „Soul of the Machine“."

Website: https://www.suno.ai/

Unter https://app.suno.ai/ kann man sich ein paar Beispiele anhören, und ich muss sagen dass ich sehr sehr überrascht bin. So ziemlich alles davon ist mainstream-radio-tauglich (IMO). Mein Favorit ist "LAND of FUZZY FACE":

"groovy 60s rock, flower power, super riff, Hendrix fuzz guitar, lo fi vocals, experimental, generetic"


Das ist extrem überzeugend (für mich jedenfalls), und das Gitarrensolo am Schluss ist ein Hammer.

NIE IM LEBEN würde ich wenn ich sowas im Radio höre darauf kommen dass das generiert ist.

BTW: Wegen der Übersetzungen kann ich ein Firefox-Addon empfehlen: "To Google Translate"

Diese Erweiterung erweitert das Kontextmenü (rechtsklick) in Firefox. Wenn man auf den entsprechenden Menüpunkt klickt, wird der zuvor ausgewählte Text zur Übersetzung an Google Translate gesendet. Oder man wählt nichts aus und sendet die gesamte Seite an Google Translate.


Ja, ich weiss. Google. Mir wurscht. Das Plugin hat mein Leben viel einfacher gemacht. Und ob Google jetzt auch noch weiss was ich mir übersetzen lasse ... da kommts auch nicht mehr drauf an. Bombenbauanleitungen würde ich mir aber vielleicht doch nicht übersetzen lassen :selfhammer:
 
Zuletzt bearbeitet:
Land of fuzzy face ist textlich sehr bescheiden, aber das Audio ist täuschend echt.
 
Land of fuzzy face ist textlich sehr bescheiden, aber das Audio ist täuschend echt.
Gefühlte 90% aller "natürlichen" Rocksongs sind textlich sehr bescheiden. Gefühlte 80% sind geradezu erbärmlich. So what?

Darum geht es doch nicht.

Es geht darum dass AI schon jetzt eine Perfektion erreicht hat, dass (meiner Meinung nach) der Großteil dessen was so im Radio läuft generiert werden kann. Ohne Beteiligung irgendwelcher Musiker.

Wart noch ein Jahr, und die KI generiert gleich noch ein entsprechendes Video. Siehe https://openai.com/sora

Damit musst Du schon die Latte sehr hoch legen wenn Du mit Deiner Musik noch Geld verdienen willst. So seh ich das jedenfalls.
Hör Dir einfach mal all die anderen Beispiele an.

zb.

"futuristic delta blues" https://app.suno.ai/song/1f43f43c-2820-4aec-8659-82ab32d70e00/

"In the Stars" https://app.suno.ai/song/8314253a-d469-4045-ba76-b9c213fa18f9/

"Cyber Chaotic Glitch" https://app.suno.ai/song/12c06d4e-d103-4f64-b408-d86ac048aa19/

Oder ganz anders:
"Progressive 8-bit Jazz drill'n'bass polyrhythm eclectic slap Bass"

"futuristic funk, jazz, bigband, blues"

Ich überleg mir grad ob ich mich registriere und mal versuche sowas wie Tangerine Dream zu generieren ...
 
Zuletzt bearbeitet:
Gefühlte 90% aller "natürlichen" Rocksongs sind textlich sehr bescheiden. Gefühlte 80% sind geradezu erbärmlich. So what?

Darum geht es doch nicht.

Es geht darum dass AI schon jetzt eine Perfektion erreicht hat, dass (meiner Meinung nach) der Großteil dessen was so im Radio läuft generiert werden kann. Ohne Beteiligung irgendwelcher Musiker.
Von Perfektion kann man nicht sprechen, wenn der Inhalt sinnlos ist. So erbärmlich die menschliche Chartmusik auch sein mag, sie ist für gewöhnlich nicht inhaltlos. Und wenn man sich 60er Rock als Vergleich zieht, der ja in der Aufgabenstellung genannt wird, dann ist der Text völliger Schwachsinn. Es ist aber nur eine Frage der Zeit, bis die KI es besser hinbekommt.

Damit musst Du schon die Latte sehr hoch legen wenn Du mit Deiner Musik noch Geld verdienen willst. So seh ich das jedenfalls.
Hör Dir einfach mal all die anderen Beispiele an.
Ich verdiene eh nichts mit meiner Musik, bin aber der Meinung, dass man als Musiker Geld mit Liveauftritten verdienen soll.
Ich hoffe, dass die KI dieses Phänomen verstärken wird, denn ohne die Menschen live spielen zu sehen/hören, wird man nicht wissen wie es gemacht wurde. Weiß man jetzt schon nicht.
Vielen Menschen ist das eh egal, aber viele identifiziert sich im bestimmten Alter mit Musik, und um sich mit der KI zu identifizieren, muss man ganz schön blöd sein.

Der Vorteil dieser generativen Musik ist das Umgehen von GEMA bei Unboxingvideos auf YouTube oder ähnlichen Sachen, wo man auf die Schnelle Musik benötigt, es aber egal ist, was es ist.

Auch könnte man sich für den Weihnachtsmarkt etliche Stunden oder Tage Weihnachtslieder generieren.
 
Zuletzt bearbeitet:
bin schon gespannt wie die web app im stadion auftritt und die kids dafür 700.000 euro eintritt zahlen, so wie sie das derzeit bei k-pop events tun.
 
bin schon gespannt wie die web app im stadion auftritt und die kids dafür 700.000 euro eintritt zahlen, so wie sie das derzeit bei k-pop events tun.
Mit VR Brillen in Käfigen, würde das gehen. Wäre aber zu großer Aufwand in Stadien und ohne Käfige wäre es zu gefährlich. Also bleiben nur noch Onlinekonzerte übrig.
 
Von Perfektion kann man nicht sprechen, wenn der Inhalt sinnlos ist.
Das kann man so nicht sagen. Funktionelle Musik zb. kann perfekt sein ohne jegliche Inhalte. Es kommt auf den Zweck an. Perfekt für was, für wen? Die Bandbreite ist groß.
So erbärmlich die menschliche Chartmusik auch sein mag, sie ist für gewöhnlich nicht inhaltlos. Und wenn man sich 60er Rock als Vergleich zieht, der ja in der Aufgabenstellung genannt wird, dann ist der Text völliger Schwachsinn. Es ist aber nur eine Frage der Zeit, bis die KI es besser hinbekommt.
Du kannst jederzeit deinen eigenen Text eingeben. Oder den Text als Basis nehmen und weiterentwickeln, falls die Idee gut ist.
Ich verdiene eh nichts mit meiner Musik, bin aber der Meinung, dass man als Musiker Geld mit Liveauftritten verdienen soll.
Ich habe dich nicht persönlich gemeint. Das "Du" war eher allgemein gedacht.
Ich hoffe, dass die KI dieses Phänomen verstärken wird, denn ohne die Menschen live spielen zu sehen/hören, wird man nicht wissen wie es gemacht wurde. Weiß man jetzt schon nicht.
Genau, man weiss es jetzt schon nicht. Und selbst wenn Du etwas "siehst" weisst du nicht wie es gemacht wird. Das geht vielleicht noch bei akustischer Musik, aber sonst ...
Vielen Menschen ist das eh egal, aber viele identifiziert sich im bestimmten Alter mit Musik, und um sich mit der KI zu identifizieren, muss man ganz schön blöd sein.
Das war vielleicht mal so. Ein mir bekannter Lehrer hat mal seine Schüler danach gefragt, was denn so ihre Lieblingsbands wären ... verständnisloses Schulterzucken. Und generell: man muss sich nicht mit irgendeiner Musik "identifizieren" um sie zu hören.
Der Vorteil dieser generativen Musik ist das Umgehen von GEMA bei Unboxingvideos auf YouTube oder ähnlichen Sachen, wo man auf die Schnelle Musik benötigt, es aber egal ist, was es ist.
Das muss doch nicht mal "auf die Schnelle" sein. Lass Dir einfach ein paar tausend Songs generieren, pack die besten tausend in einen Pool, und Du kannst einen Sender komplett damit bestücken, sogar mit unterschiedlichen Genres. Das wird sich auch nicht anders anhören als zb. Antenne Bayern o.ä. - denen kommts doch auch nicht drauf an "was es ist".
Auch könnte man sich für den Weihnachtsmarkt etliche Stunden oder Tage Weihnachtslieder generieren.
 
Mit VR Brillen in Käfigen, würde das gehen. Wäre aber zu großer Aufwand in Stadien und ohne Käfige wäre es zu gefährlich. Also bleiben nur noch Onlinekonzerte übrig.
Nope.


Komplett virtuell.

Tickets um die 200 Euro.





Aber wir kommen vom Thema ab ...
 
Zuletzt bearbeitet:
Aber wir kommen vom Thema ab ...

in der tat.

denn dass man existierende oder verstorbene künstler auftreten lassen kann ohne dass sie answesend ist absolut kein arugment für deine idee, dass KI musik irgendwann menschengemachte musik ersetzen könnte.

zum einen setzt ein abba hologram voraus, dass es abba gab, und zum anderen gibt es vielen jahren rein theoretisch die möglichkeit radiosendugnen mit künstlich generierter musik zu füllen, aber das tut halt einfach niemand.

hans zimmer hat neulich in frankfurt auch ein konzert gegeben während er selbst überhaupt nicht anwesend war und sich von einem foto hat vertreten lassen.
das beweist aber nicht im ansatz, dass die zuhörer auch gekommen wären um sich anonymen computerscheiß anzuhören, alleine schon weil sie das ja genauso gut zuhause selbst machen können. :)
 
in der tat.

denn dass man existierende oder verstorbene künstler auftreten lassen kann ohne dass sie answesend ist absolut kein arugment für deine idee, dass KI musik irgendwann menschengemachte musik ersetzen könnte.
Ich kann mich nicht erinnern dass ich das so irgendwo geschrieben hätte ...

Nichtdestotrotz bin ich der Meinung dass Radioprogramme wie zb. Antenne Bayern o.ä. zum größten Teil mit KI-Produkten produziert werden könnten.
 
zum einen setzt ein abba hologram voraus, dass es abba gab,
Hatsune Miku hat es vorher auch nicht gegeben:




und zum anderen gibt es vielen jahren rein theoretisch die möglichkeit radiosendugnen mit künstlich generierter musik zu füllen, aber das tut halt einfach niemand.

Die Qualität war bis jetzt ja auch nicht gegeben. Und auch da ist noch Luft nach oben. Wart noch ein Jährchen.
 
Zuletzt bearbeitet:
ich bezog mich hierauf:

1710989017890.png


ich stelle mehr oder weniger grundsätzlich in abrede, dass KI generierte musik nenneswerte umsätze erzielen kann und du nanntest abba als gegenbeispiel, nur weil die schon mal ohne sich selbst aufgetreten sind.

bei den abba hologrammkonzerten wurde ausschließlich gema material gespielt, ferner wurden namesrechte verwertet und im großen stile merch betrieben.

wobei sogar einer komponisten selbst mitinhaber der veranstaltungfirma ist.

das ist also weder ein beispiel für KI musik noch dafür, dass künstler wegen Ki konkurrenz kein geld verdienen. du hast keine vorstellung davon was solche konzertveranstaltungen umsetzen, da bewegen wir uns im dreistelligen millionenbereich.

Hatsune Miku hat es vorher auch nicht gegeben

das wurde auch alles von menschen komponiert.
 
zumindest ist Suno die erste ITB Lösung die vom Workflow und der Haptik überzeugt
 
Tja, da bekommt der Begriff „Generative Musik“ hier in der Forenkategorie eine ganz neue Bedeutung. ;-)

Sora wurde ja auch schon angesprochen… anderes Medium aber ähnliches Thema. BTW: Sam Altman hat neulich dazu im Interview gesagt dass aktuell noch eine Menge menschliche Arbeit im Training der KI für Sora steckt… Stichwort „Labelling.“ Wie das wohl hier bei Audio ist?

Zweifellos aufregende Zeiten in denen wir gerade leben…
 
Es geht darum dass AI schon jetzt eine Perfektion erreicht hat, dass (meiner Meinung nach) der Großteil dessen was so im Radio läuft generiert werden kann.
es kommt mir auch so vor, als sei die radiopopmusik (edm, r´n´b, trap, aber auch lo-fi) bereits generiert.
was wohl dabei herauskommt, wenn KI werke klassischer komponisten generiert?
 
Oooh mein Gott!
Ich habe mich diesem KI-Fuck bisher entzogen und mir bisher keinen einzigen generierten Track reingezogen. Den grafischen "Ergüssen" dieser unheilvollen Technologie kann man sich ja nirgends mehr entziehen (im Netz, aber auch zunehmend in der realen Welt) - man wird ja vollkommen damit zugeschi..... und ich finde es g-r-a-u-e-n-v-o-l-l.
Jetzt also noch die "Musik" - na herzlichen Glückwunsch. Was noch kürzlich IT-Nerd-Kram war, wird jetzt (bzw. kurzfristig) zum Massenphänomen in den Streamingportalen, Netzradios, Clubs, "Live"-Events....:ateam:

Ledigich die Hoffnung bleibt, dass elektronische Spartenmusik davon (erstmal) halbwegs verschont bleibt - aber die Techniknerds werden auch hier dafür sorgen, dass der Dreck Einzug hält und man sich (auch als Hobbyschrauber) fragen muß, wozu mach ich mir noch die "Mühe", selbst zu Komponieren/ Produzieren, wenns doch auch die KI kann.

Der Mensch schafft sich ab - nun auch noch seine Kunst. Halleluja................
 
Gefühlte 90% aller "natürlichen" Rocksongs sind textlich sehr bescheiden. Gefühlte 80% sind geradezu erbärmlich. So what?

Darum geht es doch nicht.

Es geht darum dass AI schon jetzt eine Perfektion erreicht hat, dass (meiner Meinung nach) der Großteil dessen was so im Radio läuft generiert werden kann. Ohne Beteiligung irgendwelcher Musiker.

Wart noch ein Jahr, und die KI generiert gleich noch ein entsprechendes Video. Siehe https://openai.com/sora

Damit musst Du schon die Latte sehr hoch legen wenn Du mit Deiner Musik noch Geld verdienen willst. So seh ich das jedenfalls.
Hör Dir einfach mal all die anderen Beispiele an.

zb.

"futuristic delta blues" https://app.suno.ai/song/1f43f43c-2820-4aec-8659-82ab32d70e00/

"In the Stars" https://app.suno.ai/song/8314253a-d469-4045-ba76-b9c213fa18f9/

"Cyber Chaotic Glitch" https://app.suno.ai/song/12c06d4e-d103-4f64-b408-d86ac048aa19/

Oder ganz anders:
"Progressive 8-bit Jazz drill'n'bass polyrhythm eclectic slap Bass"

"futuristic funk, jazz, bigband, blues"

Ich überleg mir grad ob ich mich registriere und mal versuche sowas wie Tangerine Dream zu generieren ...

Wow, das ist ja ein echt cooles Level in diesen Beispielen. Weiß man schon, mit welchen Ausgangsdaten sie die KI gefüttert/trainiert haben?
 
Wow, das ist ja ein echt cooles Level in diesen Beispielen. Weiß man schon, mit welchen Ausgangsdaten sie die KI gefüttert/trainiert haben?

Ich antworte mir mal selber. Nee, die rücken diese Info nicht raus.

„OpenAI faces multiple lawsuits over ChatGPT’s use of books, news articles, and other copyrighted material in its vast corpus of training data. Suno’s founders decline to reveal details of just what data they’re shoveling into their own model, other than the fact that its ability to generate convincing human vocals comes in part because it’s learning from recordings of speech, in addition to music. “Naked speech will help you learn the characteristics of human voice that are difficult,” Shulman says.“ (aus dem Rolling Stone Artikel zitiert)
 
bin schon gespannt wie die web app im stadion auftritt und die kids dafür 700.000 euro eintritt zahlen, so wie sie das derzeit bei k-pop events tun.

Mit VR Brillen in Käfigen, würde das gehen. Wäre aber zu großer Aufwand in Stadien und ohne Käfige wäre es zu gefährlich. Also bleiben nur noch Onlinekonzerte übrig.
Das geht per Residenz. ABBA in London als Hologramm. Geht der Berg nicht zum Propheten, muss halt der Prophet zum Berg. Taylor Swift lässt auch einen Haufen Konzerte in Asien aus, geht nur nach Australien, Japan, Singapur.

Money talks and bullshit walks.

Edit: sorry, @ikonoklast hatte es schon erwähnt.
 
Tja. Dann schaut mal zu, dass ihr ein Handwerk erlernt, das die KI in absehbarer Zeit nicht können wird.
Entwickelt etwa eure ganz eigene Sprache zur Notierung von Musik, die der Computer – ganz ohne KI – nach Audio umsetzt, bzw. andere digitale Kunstformen je nach Geschmack. Setzt nicht übermäßigen Ehrgeiz hinein, dass andere das Zeug nachnutzen. Am Ende gehts ja vor allem darum, dass der Spracherfinder selbst das benutzt. Der sollte aber nicht zu viele Codes an die Öffentlichkeit geben, gerade genug Substanz, damit potenzielle Interessenten darauf stoßen könnten, den Rest verstaue er ausgedruckt in seiner Wohnung. Genug, dass er sich einbilden kann, das würde irgendwen interessieren.

Durch die strukturelle Dichte und mangels Trainingsmaterial wird sich die KI daran ein, zwei Jahrzehnte die Zähne an Sprachen und Codes ausbeißen, deren Grammatik und Semantik für ein schnödes heuristisch-stochastisches Language Model zu komplex ist. Das Prompt "Transponiere das ganze nach A-Moll, lasse Stimme xy passende Appergien dazu spielen. Gib den Code aus und zwar in lesbar, damit ich dran rumtunen kann." wird solange abschlägig beschieden.
 
Entwickelt etwa eure ganz eigene Sprache zur Notierung von Musik, die der Computer – ganz ohne KI – nach Audio umsetzt, bzw. andere digitale Kunstformen je nach Geschmack. Setzt nicht übermäßigen Ehrgeiz hinein, dass andere das Zeug nachnutzen. Am Ende gehts ja vor allem darum, dass der Spracherfinder selbst das benutzt. Der sollte aber nicht zu viele Codes an die Öffentlichkeit geben, gerade genug Substanz, damit potenzielle Interessenten darauf stoßen könnten, den Rest verstaue er ausgedruckt in seiner Wohnung. Genug, dass er sich einbilden kann, das würde irgendwen interessieren.
Das soll jetzt jeder machen? Quasi "jeder erfindet seine eigenen algorithmen" - ob nun hard- oder software-basiert - nur um eine AI zu erschrecken?
Durch die strukturelle Dichte und mangels Trainingsmaterial wird sich die KI daran ein, zwei Jahrzehnte die Zähne an Sprachen und Codes ausbeißen, deren Grammatik und Semantik für ein schnödes heuristisch-stochastisches Language Model zu komplex ist. Das Prompt "Transponiere das ganze nach A-Moll, lasse Stimme xy passende Appergien dazu spielen. Gib den Code aus und zwar in lesbar, damit ich dran rumtunen kann." wird solange abschlägig beschieden.
Warum sollte sich eine AI grad damit beschäftigen? Wozu sich die Zähne ausbeissen an -wahrscheinlich- global gesehen irrelevantem Material? Und was hast Du als Musiker davon dass sich die AI an der Umsetzung deiner idiosynkratischen Ergüsse "die Zähne ausbeisst"?
 
Livemusik mit echten Menschen die echte Instrumente spielen wird immer wichtiger. Wenn es Menschen gibt die Musik sehen und hören wollen, welche von Menschen gemacht wird. Vielleicht ist vieles davon dann auch von einer KI komponiert.
Wenn die Menschheit aber damit zufrieden ist künstliche Bilder als "Liveevent" zu verstehen, dann macht das alles keinen Sinn mehr.
 
Und was hast Du als Musiker davon dass sich die AI an der Umsetzung deiner idiosynkratischen Ergüsse "die Zähne ausbeisst"?
Eine Art Echtheits-, Unnachahmlichkeitszertifikat. Kann ich mir an die Wand hängen. An die Wand unter der Brücke, direkt übers Grafitti.

Aber im Ernst: Ich meine halt sowas wie in der Kryptografie geheimer Schlüssel (Quelltext, Klartext), öffentlicher Schlüssel/Algorithmus und Kryptat (Musik).
Machte aber nur wirklich Sinn bei Auftragsarbeiten, um nachzuweisen, dass man den Auftrag nicht einfach an nen KI-Service weitergegeben hat.
 
Zuletzt bearbeitet:
ja gut ... auf dem Niveau kann ich auch Texte schreiben:

Anhang anzeigen 209548

:mrgreen:
Auch darum geht es nicht. Mach doch auf der Vorlage deinen eigenen Text. Oder lass nen anderen generieren. Und ehrlich - zu einem Titel wie "Cyber Chaotic Glitch" passt das doch irgendwie, oder nicht? Zudem ist die letztliche Umsetzung ja so dass du den "Text" eh nicht erkennen kannst.
Zudem gibt es AFAIR einige bekannte Musikstücke mit ähnlich sinnlosen Texten. Im Prinzip ja auch überall wo die Stimme -ob nun mehr oder weniger verfremdet- als reines Instrument benutzt wird. So zb. bei den Obertonsängern. Da könnte man ja auch sagen "so einen sinnlosen Text kann ich auch":

Aber genau darum geht es ja nicht ...
 
Wir leben in einer Zeit, in der bereits jeder, der etwas technikaffin und ambitioniert genug ist, Songs produzieren kann.

Es gibt jede Menge Plugins, mit jede Menge Presets, die man nur per Drag n Drop zusammenschieben muss. Einen Text kann man sich schreiben oder generieren lassen. Texter, Sänger und Tontechniker (mit Summierer) kann man für etwas Kleingeld im Netz finden, und schon hat man alles was man braucht, um Songs wie auf dem Fließband zu produzieren.

Nun wird man sich fertige Songs generieren lassen können. Weniger Arbeit, weniger Einflussmöglichkeit und noch weniger Kunst.

Wer das macht oder noch schlimmer, sich das anhört, ist selbt Schuld. Die Kunst liegt in dem Inhalt, dem Ausdruck und vor allem den Emotionen. Die KI hingegen kann nur täuschen.

Dass sich emotionslose Musik durchsetzen kann, haben wir bereits paar Mal erlebt, somit ist es nicht unwahrscheinlich, dass die generierte Musik auch mal den Durchbruch erzielt. Dabei würden mir aber nicht die Musiker leid tun, sondern die Musikkonsumenten.
 
Zuletzt bearbeitet:
Finde dieses Beispiel von Suno erschreckend echt bzw. auch emotional wirkend. Oder ist die Emotion nur oberflächlich gut kopiert, ohne etwas zu fühlen? Textlich gehts übrigens um die Seele im Schaltkreis… :)

 
Dieses Beispiel ist das einzige was mir gefallen hat. Dennoch kann man hier von keinen Emotionen sprechen. Gerade dieses Genre lebt von der Interpretation. Jemanden so live singen und spielen zu sehen/hören geht tief unter die Haut. Dieses Erlebnis verkörpert das was Musik ausmacht und kann durch kein Hologramm ersetzt werden.
 


Neueste Beiträge

News

Zurück
Oben