Um den Sachverhalt den Summa angesprochen hat noch etwas breiter zu treten:
Das Problem bei Morphing als gestaltwandelnder Prozess ist immer, daß es eine parametrische Darstellung des Klanges voraussetzt. D.h. man muß zunächst in irgendeiner Form (automatisch oder manuell) charakteristische Eigenschaften der zu morphenden Klänge definieren (im Video-Morphing geschieht das z.B. durch Setzen von Markerpunkten). Anders gesagt: um eine Gestalt zu wandeln muß man zunächst einmal eine Gestalt erkennen bzw. definieren. Das kann man im Frequenzspektrum durch das Suchen und Verbinden lokaler Maxima tun, oder bei einer Darstellung als Generator/Filter-Prozess durch das Finden (oder Schätzen) der zugrundeliegenden Erreger-Wellenform und Filter-Parameter. In jedem Fall wird man ein spezifisches Ergebnis bekommen, das mehr oder weniger dem erwarteten Hörereignis entspricht, weil das zugrundeliegende Modell auch mehr oder weniger mit dem tatsächlichen Erzeugermodell (Instrument, Stimme) übereinstimmt.
Ganz wild (im Sinne von schwierig und zweideutig) wird es immer dann, wenn man für das Morphing eine nichtparametrische Ausgangsdarstellung zugrundelegt, wie es z.B. bei der Fourier-Transformation der Fall ist. "Nichtparametrisch" heißt, daß bei einer 2048 Samples langen diskreten Fourier-Transformation eines Musiksignales immer 1024 (eigentlich 1025) Frequenzen ausgewertet werden, unabhängig davon, ob man nun einen obertonreichen Klang untersucht oder nur einen einzelnen Sinuston. In anderen Worten: eine parametrische Transformation eines Sinustones innerhalb eines Zeitfensters würde nur eine einzige Amplitude/Frequenz/Phase-Wertegruppe liefern. Die Fourier-Transformation liefert immer alle ausgewerteten Frequenzen.
Bei der parametrischen Darstellung könnte man also, vereinfacht gesagt, zwischen Frequenz und Amplitude der entsprechenden Wertegruppen in Ziel- und Quellsample überblenden, um einen Morph zu erzeugen. Wenn der eine Sound aus einem Sinuston mit Amplitude = 1 und Frequenz = 1000 Hz und der zweite mit Amplitude = 0.5 und Frequenz = 2000 Hz bestünde, so könnte man problemlos daraus einen Morph bei 50% von Amplitude = 0.75 und Frequenz 1500 Hz errechnen.
Bei der Fourier-Transformation dagegen muß man zunächst einmal das Ergebnis derart auswerten, daß man weiß, welche Sinustöne (falls es sich überhaupt um solche handelt) dem Analyse-Ergebnis zugrunde liegen. Das ist nicht immer eindeutig möglich und daher fehleranfällig. Aus diesem Grunde ergibt sich dann auch bei der Resynthese bei additiv synthetisierten Morphs das Problem, daß Artefakte (Klimpern und Flanging) auftreten können. Hinzu kommt, daß die Basisfunktionen der Fourier Transformation innerhalb des ausgewerteten Zeitfensters periodisch sind, was bedeutet, daß man im Frequenzbereich immer nur pauschal für das Zeitfenster eine Angabe machen kann, aber nicht ohne Weiteres weiß, wann genau ein zeitlich begrenztes Ereignis innerhalb eines solchen Zeitfensters denn auftritt. Aus diesem Grund klingen die Morphs dann u.U. schwammig, verhallt oder verwaschen.
Das soll jetzt nur mal grob umreißen, mit welchen Themenkomplexen man sich hier beschäftigen muß. Das Prosoniq morph arbeitet aus den genannten Gründen auch ohne Fourier-Transformation und auf der Basis einer adaptiven Transformation, die sich dem Signal anpaßt. Mehr dazu gibt es auf
http://neuron.prosoniq.com/resynthesis.html (Englisch) für die, die es interessiert.
Schöne Grüße,
--smb