Wie funktioniert Resynthese?

E

e6o5

||
Mit Matlab habe ich mal ein wenig rumprobiert und habe zwei Audio-Dateien geladen. Die beiden per FFT in den Frequenzbereich transformiert und mal ein bisschen rumgespielt.
Mein erster naiver :D Ansatz war die Frequenzbereiche der beiden Audiosignale (gewichtet) zu addieren. Es hoerte sich ganz nett an, aber nicht nach Morphing. Die Audiomorphing-Beispiele von http://www.symbolicsound.com/cgi-bin/bin/view/Products/SoundClips haben mich darauf gebracht. Gibt es Buecher oder Papers zu solchen Algorithmen?
 
Ein Sample wird in eine bestimmte Anzahl von zeitlichen Abschnitten zerteilt, jeder Abschnitt nur ein paar Mili-Sekunden lang. Ein bestimmter Abschnitt wird als Loop abgespielt, solange bis der nächste Abschnitt folgt. Sehr kurze Loops von Wellenformen, ergeben immer einen sehr statischen Sound, vergleichbar mit typischen analogen Wellen wie Sägezahn oder Sinus. Diese Loops enthalten nur harmonische Obertöne, deswegen lässt sich damit auch kein Rauschen erzeugen.
Dadurch klingt das reynthetisierte Signal meisst sauberer als das Original aber eben auch digitaler und weniger charakteristisch.

Hoffe du kannst die Erklärung einigermaßen nach vollziehen, ohne Bilder ;-)
 
Ist das nicht Granular-Synthese? Mir geht es mehr um dieses Audiomorphing, da bringt mich das nicht weiter, oder?
 
was meiner meinung nach in deiner obigen beschreibung fehlt ist, dass du die signale nicht nur als ganzes FFT transformieren solltest, sondern (wie herr urinstinkt sagt) nur kurze abschnitte. wenn du dann zwischen den beiden signalen hin und her rechnest, hast du direkt viel mehr möglichkeiten von signal a nach signal b zu kommen.
 
Zur FFT gehört die Fensterfunktion!
Eine FFT tut immer so, als wenn das Signal endlos geloopt wäre. Das ist meistens falsch: die Stoßstellen vom Anfang und Ende sind ja von alleine noch nicht mal Knackserfrei zusammengeschnitten, ausserdem gibt es bei so "planlos" erzeugten Loops immer 'geratter' von der Looplänge: das taucht im Spektrum auf!

Daher wird das Zeitsignal vorbehandelt: es wird "gefenstert". Die obige Fensterfunktion ist ein Rechteck. Das ist eine der unbrauchbarsten - es sein denn die periodische Fortsetzung des Signals ist tatsächlich gegeben.
Praktische Fensterfunktionen sehen aus wie ein Berg mitten im Flachland: am Anfang und am Ende Null, damit verschwinden die Sprünge am Anfang und am Ende.

Für eine 'Ohrartige' Analyse sind effektive Fensterbreiten von einigen 10ms sinnvoll. Die überlappen sich dann, also Gesammtlänge der FFT vielleicht 100ms (ca 4096 Samples) und die dann immer um ein drittel (ca 1300 Samples) weiterschieben.

Wenn du stimmende Töne im Baß und knackige Percussions behalten willst muß der Ansatz noch etwas aufgebohrt werden, es gibt so eine Art Unschärfbedingung der Analysetechnik: ein Schalleregnis kann nicht beliebig genau in Zeit und Frequenz bestimmt werden - je genauer die Frequenz desto ungenauer der Zeitpunk zu dem es Auftritt.

Soweit zum Analyseteil. Das Morphing macht das wohl zweimal, verwurstet die Spektren miteinander und rechnet das Ergebnis zurück (kenn ich mich nicht mit aus). (Die Fensterfunktion dient dann dazu die einzelnen (inversen) FFTs ineineinander überzublenden - da erfolgt sozusagen Granularsynthese mit den von der FFT erzeugten Grains.)
 
kann man dann nicht besser (näherungsweise) raised cosine fenstern, und das fenster immer um den ansteigenden raised cosine anteil weiterschieben?
 
Weiß ich ehrlich gesagt nicht - ich kenne das aus der Meßtechnik und da hat man andere Ansprüche ans Fenster.

Rein praktisch *vermute* ich, dass das Ergebnis nicht so wahnsinnig an der konkreten Fensterfunktion hängt, das hört sich hinterher sowieso immer nach Phaser und Metall an. (Und wenn nicht: herzlichen Glückwunsch zum Morph-Algorithmus!)

Ich würde mir angucken, was das Ohr so hinbekommt und mich daran orientieren. Vor allem erscheint es mir eher blöd nur eine FFT zu nehmen: eine FFT löst den Frequenzbereich linear auf, das Ohr aber logarithmisch. Von daher würde ich eher drei oder vier FFTs mit unterschiedlichen Längen nehmen, die verschieden schnell über das Signal laufen.
 
Granular-Synthese arbeitet nach dem selben Prinzip, ist aber nicht auf die Analyse eines Samples beschränkt. Da man an jeder Stelle beliebige Cyklen hinzufügen kann, entsteht sowas wie Morphing, ist es meiner Meinung nach aber nicht wirklich, da mann z.b. aus einer Bassdrum keine Hihat machen kann und umgekehrt. Für solche Sounds ist diese Mehthode einfach nicht geeignet, da ja stehts nur harmonische Spektren entstehen, und ein tonales Rauschen ist ja irgendwie kein Rauschen mehr ;-)
 
Fetz schrieb:
Rein praktisch *vermute* ich, dass das Ergebnis nicht so wahnsinnig an der konkreten Fensterfunktion hängt, das hört sich hinterher sowieso immer nach Phaser und Metall an. (Und wenn nicht: herzlichen Glückwunsch zum Morph-Algorithmus!)

wie schauts denn mit anderen transformationen aus?
dct oder wavelets?
 
@Fetz

Interessante Beschreibungen! Ich habe mir die verschiedenen Analysesysteme im Laufe der Zeit angesehen, nicht immer mit der gleichen Gründlichkeit natürlich. Mir fallen da teils gravierende Unterschiede bei den Ergebnissen auf. Die Systeme heißen nicht immer direkt Resynthese, das ist das eine. Zweitens scheinen die Algorithmusansätze teils auch aus anderen Bereichen zu stammen. So spricht Camel Audio etwa davon, dass bei Forschungen an einer Liverpooler Uni die Inspiration entstand, ein Analyseverfahren zu entwickeln, das man eben AUCH für Synthese einsetzen kann. Ähnlich scheint mir das beim Neuron zu sein, wo ich nach längerer Recherche lediglich rausgefunden habe, dass der Pate des Systems etwas im Medizinbereich gewesen sein müsste. Auch glaube ich am anderen Ende der Gleichung eigentlich ein Spracherkennungssystem zu hören. Kannst Du da was dazu sagen? Kennst Du Cube zufällig oder den Doppelmangler? Die haben ja auch Analyser, die das Signal neu berechnen. Anders gefragt: Fällt das per Oberbegriff unter Resynthese und müsste man da Unterschiede machen bei den einzelnen Systemen? Geht nicht Physical Modeling letztlich in eine ähnlich Richtung. Soweit ich weiß, werden da auch zunächst die Instrumenteneigenschaften untersucht und dann nachgebildet, wenn auch nicht per Sampleimport. Jedenfalls fällt auf, dass Leute, die PM entwickeln, sich für Samples interessieren.
 
Der Symbolic Sound-Server scheint down zu sein...

Morphing macht eigentlich nur Sinn wenn man nicht alle Parameter gleichzeitig veraendert, aehnlich wie beim grafischen Ansatz, wo gekennzeichnete Bereiche die zuerst gemorphed werden, ansonsten klingts es einfach nur nach ueberblenden. Man kann z.B. Lautstaerkenverlauf, Formanten, BPM, Frequenzverlauf, verwendete Obertoene der Quellen nach und nach angleichen bis man das Signal zum Schluss komplett uebeblendet hat...
 
Summa schrieb:
Der Symbolic Sound-Server scheint down zu sein...

Morphing macht eigentlich nur Sinn wenn man nicht alle Parameter gleichzeitig veraendert, aehnlich wie beim grafischen Ansatz, wo gekennzeichnete Bereiche die zuerst gemorphed werden, ansonsten klingts es einfach nur nach ueberblenden. Man kann z.B. Lautstaerkenverlauf, Formanten, BPM, Frequenzverlauf, verwendete Obertoene der Quellen nach und nach angleichen bis man das Signal zum Schluss komplett uebeblendet hat...

beim grafiken morphen werden ja in der regel auch die parameter "textur" und "umriss" unabhängig voneinander verändert.
sonst sähe das auch aus wie ein überblenden von zwei grafiken.
 

Similar threads



Neueste Beiträge

News

Zurück
Oben