Visuelle Klanganalyse

Wäre derart detaillierte Soundanalyse für dich sinnvoll?

  • Ja, schade, wenn das nicht quellenagnostisch möglich ist

  • Nein, aber immer noch interessant

  • Nein, ich vertraue allein meinen Ohren


Die Ergebnisse sind erst nach der Abstimmung sichtbar.
D

D1g1t4l D3t0x3r

Offline bis Juli '24. Erreichbar via PN.
In diesem Thema geht es eigentlich nicht um Synthese, sondern um die Analyse. Wobei ähnlich wie bei der fourierbasierten Synthese/Analyse die beiden Richtungen eng zusammenhängen. Der Weg ist hier allerdings nicht einfach die mathematische Gegenrichtung, sondern über eine weite Strecke der gleiche.

Hab seit einiger Zeit an einem Werkzeug um die unterschiedlichen Aspekte von Klängen visuell darzustellen gearbeitet, für den Fall, dass ich ertaube oder wenn zeitweilig auf meine Ohren allein kein Verlass ist, letztens ist mir wieder mal mein linkes Ohr abgefallen (Hörsturz), ist zum Glück wieder dran dank Therapie mit Ohropax oder gleichwertigen Stöpseln und viel Wasser trinken. Wobei auch im gesunden Zustand meine Ohren nicht wirklich gut ausgebildet sind. Wer erst im Alter mit Klang- und Musiksynthese anfängt, dem entschuldigt, dass er im Zweifelsfall andere Sinne zur Rückversicherung benutzt.

Zumindest diejenigen Klänge, die ich selber synthetisiere und von denen ich jeden dieser Aspekte unabhängig voneinander modellieren kann, da kann ich mich an einer bestimmten Stelle umentscheiden, dass ich die einzelnen Oszillationen und Hüllkurven nicht wie üblich in Audiosamples kulminieren lasse, sondern mit Matplotlib weiterverarbeite:
00189.snd.png
Hier ist das Audio dazu:
Anhang anzeigen 00189.snd.ogg

Dieser Klang wurde verwendet in meinem Beitrag zum Forumssong-Battle letztes Jahr, (für mich) genauer aus dem Log: New note ... @0:09.12428... F#2+0k(22) ...

Audioaufnahmen, überhaupt Sounds aus anderen Quellen müssen weiterhin mit bisherigen, ungenauen Mitteln wie Spektrogrammen analysiert werden. Oder gibt es mittlerweile was in der Richtung auch für quellenagnostische Soundanalyse? Wenn ich die Theorie kapiert habe, ist das nicht möglich: Bei der mathematischen Modellierung von Klängen, die eine abstraktere Variante der physikalischen Modellierung ist, gehen im Laufe der Synthese zu viele Informationen verloren. Mehrere Layer gibt es nicht mehr, nur noch eine Reihe von Abtastwerten. In der Bildverarbeitung ist das ja auch so: Ebenen, die "nach unten" vereinigt sind, können nur noch gemeinsam als indifferenter Blob manipuliert werden
 
Naja, da geht schon ein wenig was - gibt ja Software, die z.B. aus einem Mixdown einzelne Stimmen (mehr oder weniger gut) extrahieren kann.

Ob Du allerdings aus einem Sample wieder die Informationen bekommst: Das war ein Sawtooth-Oszillator in Frequenz X, gesynct zu einem Osc mit Frequenz Y und das ganze durch einen Hochpassfilter der Güte Z bei Frequenz A und Resonanzwert B ... da wird man vermutlich eher mit entsprechend trainierten neuronalen Netzen rangehen.
 
da wird man vermutlich eher mit entsprechend trainierten neuronalen Netzen rangehen.
Fraglich ist allerdings, wer die trainieren will angesichts der unzähligen Arten, wie der gleiche Sound umgesetzt werden kann (angenommen die Frage, das obige Geräuschbeispiel nachzumachen, vermute ich, wäre das für euch leicht?), und wie klein die Änderungen sein können, die die größten Unterschiede im Höreindruck machen.

Gesangsextraktoren faszinieren mich. Gibt es sprachagnostische? Übertragen auf reine Klanganalyse wäre es zumindest die halbe Miete zu erkennen, wenn ein Sound aus wenigen, sagen wir aus bis zu 10 addierten Sinusprimitiven besteht, die Wahrscheinlichkeit, dass er subtraktiv entstanden ist, also signifikant klein ist.
 
Wavelet-Analyse mit farblicher Hervorhebung von spektralen Peaks, die über die zeitliche Domäne verfolgt werden, würde ich ja schon noch unter Spektralanalyse zählen.

Diese ganzen fourierbasierten Ansätze funktionieren quellenagnostisch, auf beliebigen Aufnahmen synthetischer oder organischer Herkunft, was sowohl Vorteil wie Nachteil ist.

Vorteil: Das Auge kann bei der Klanganalyse helfen. Nachteil: nicht wirklich gut.

Soll es besser helfen, müssen vermutlich auf das Syntheseverfahren maßgeschneiderte Analyseverfahren her, wie ich hier eine demonstriert habe. Oder "irgendwas mit KI".
 
Fraglich ist allerdings, wer die trainieren will angesichts der unzähligen Arten, wie der gleiche Sound umgesetzt werden kann
Letztendlich kann eine gut trainierte KI in etwa so "gute" Ergebnisse liefern, wie das menschliche Ohr + Hirn. Wir erkennen ja auch in einem Mix einzelne Sounds und sagen: Ja, das ist ein Sync-Sound, oder der hier wird 4-OP FM mit vermutlich diesem oder jenen Algorithmus sein. Da es natürlich auch zwischen den Synthesearten viele klangliche Überschneidungen gibt, geht das nur bis zu einem gewissen Grad.

Die Frage, die ich mir also zuerst stellen würde, wäre: Was wäre der primäre Anwendungzweck? Will ich ein Audiofile zurück in eine Partitur wandeln? Will ich eine Liste der genutzten Instrumente bzw. der vermutlich eingesetzten Synthsounds? Wie würde mir das in der Praxis weiterhelfen? Resynthese funktioniert ja auf additiver Basis schon ganz gut ...
 
Letztendlich kann eine gut trainierte KI in etwa so "gute" Ergebnisse liefern, wie das menschliche Ohr + Hirn.
Ich würde gerne hervorheben, dass "Letztendlich" hier bedeutet, "in vielen Jahren". Bis wir ein neuronales Modell aufgebaut haben, das ähnlich leistungsfähig wie "Ohr + Gehirn" ist, und dann noch das fürs Training notwendige Audiomaterial sinnvoll getaggt haben (dafür gibt es noch gar kein System), werden noch einige Jahre ins Land gehen.

Man darf nicht unterschlagen, dass "Auditory Scene Analysis" so ziemlich das Komplexeste ist, was das menschliche Gehirn zu leisten im Stande ist (Stichwort z.B. "Cocktail Party Effect"). Der gesamte Themenkomplex ist seit zig Jahren Gegenstand jeweils aktueller psychologischer Forschung und noch immer weit davon entfernt, verstanden und durchschaut zu sein (man könnte hier auch an psychologische Störungen wie ADHS und Autismus denken).

Einwand wäre nun "was ist denn mit ChatGPT, da haben doch auch nicht mal die Macher verstanden, warum genau es funktioniert". Gegeneinwand: Wenn man es genau betrachtet, scheint es auch nur zu "funktionieren". Von der Leistung des menschlichen Gehirns ist es Lichtjahre entfernt.

Es wird wohl noch einige Zeit so bleiben, dass auch höherwertige Spektralanalyse und -manipulation (siehe @Moogulator s Beitrag) rein mechanistisch bleiben.
 
Ich würde gerne hervorheben, dass "Letztendlich" hier bedeutet, "in vielen Jahren".
ja, ich hätte darauf hinweisen sollen, dass das erst einmal die Grenze ist, der wir uns annähren können. (ob entsprechend hoch entwickelte KIs das menschliche Hirn in einer zweiten Entwicklungswelle schlagen, steht auf einem anderen Blatt).

Mit dem Cocktail Party Effect komme ich z.B. persönlich nicht klar: In einer Menschmenge habe ich sehr große Schwierigkeiten, zu verstehen, was jemand sagt (auch wenn er/sie direkt neben mir steht). Daher meide ich solche Veranstaltungen nach Möglichkeit. ;-)
 
In einer Menschmenge habe ich sehr große Schwierigkeiten, zu verstehen, was jemand sagt (auch wenn er/sie direkt neben mir steht). Daher meide ich solche Veranstaltungen nach Möglichkeit.
Tatsächlich kann das ein Hinweis auf eine Verschlechterung der Hörfähigkeit sein, lange bevor es beim Hörgeräte-Akustiker mit einem Audiogramm messtechnisch nachweisbar ist.

Du meidest es, aber man kann es auch trainieren. Und grundsätzlich hilft es in lauter Umgebung erheblich, auf die Lippen des Gesprächspartners zu starren, auch wenn man dann als "schwerhörig" abgestempelt wird. Der "Cocktail Party Effect" lässt sich nämlich visuell beträchtlich unterstützen (da geht es durchaus um 6B und stärker verschlechterte SNR).
 
Tatsächlich kann das ein Hinweis auf eine Verschlechterung der Hörfähigkeit sein, lange bevor es beim Hörgeräte-Akustiker mit einem Audiogramm messtechnisch nachweisbar ist.

Du meidest es, aber man kann es auch trainieren. Und grundsätzlich hilft es in lauter Umgebung erheblich, auf die Lippen des Gesprächspartners zu starren, auch wenn man dann als "schwerhörig" abgestempelt wird. Der "Cocktail Party Effect" lässt sich nämlich visuell beträchtlich unterstützen (da geht es durchaus um 6B und stärker verschlechterte SNR).

das geht mir tatsächlich schon mein Leben lang so - und meine Hörtests sind eigentlich alle in Ordnung. Mit Gesichtern geht es mir ähnlich: habe große Schwierigkeiten, sie wiederzuerkennen, wenn ich die entspr. Leute nicht täglich sehe.
Und: Geräuschkulisse aus vielen Menschen löst bei mir gerne so eine Art "Trance" aus, in der ich dann gar nicht mehr großartig kommunikationsfähig bin - in größeren Menschenmengen habe ich eh einen Fluchtreflex, der vieles anderes übersteuert. Habe es abgeschrieben, das in meimem Alter noch loswerden zu können, und ich leide auch nicht sehr darunter - fühle mich in kleinen Runden sowieso wohler.
 


Neueste Beiträge

News

Zurück
Oben