allgemeine frage zur sound/audiosynthese:

F

freder

long time no see - Klicke Reset Passwort
über eine antwort würde ich mich sehr sehr freuen, und sage schon mal vielen lieben dank :)

meine frage: wieviele oszillatoren sind notwendig, damit man jeden 'natürlichen klang' [also sowas wie stimmen oder naturgeräusche in der art und und und] synthetisch erzeugen kann?

ich hatte im netz mal gelesen, dafür würde man drei oder vier benötigen?! dabei war jedoch nur von oscillatoren die rede + also oszillatoren ohne lfo oder envelopes UND die synthese-art war nicht beschrieben, dabei denke ich jedoch an die additive/subtraktive synthese ...leider finde diesen artikel auch nach intensivsten recherchen nicht mehr :sad:

... vielleicht hat hier jemand eine antwort darauf? denn mich lässt diese recht theoretische frage nicht mehr los :)

p.s.: ich kenne mich ein wenig mit den grundbegriffen aus und hoffe, daß ich mich fachlich richtig ausgedrückt habe + falls nicht, bitte ich um nachsicht!
 
Für Vokale sind Filter sehr viel wichtiger als Oszillatoren, 3 Filter sind ein guter Anfang oder die gleich Anzahl an Oszillatoren die verschiebbare Formanten erzeugen können. Man kann natürlich auch 'nen haufen Sinus Oszillatoren verwenden, Stichwort Resynthese - wird so ab etwa 128 Harmonischen/Sinus-Oszillatoren interessant...
Wobei bei Geräuschen ja noch Sinus-Oszillatoren außerhalb der Harmonischen dazu kommen.
 
freder schrieb:
damit man jeden 'natürlichen klang' [also sowas wie stimmen oder naturgeräusche in der art und und und] synthetisch erzeugen kann
Das kann man nicht wirklich. Das Problem sind nicht die Oszillatoren; eine Nachtigall, oder die menschliche Stimme hat auch nur einen tonalen "Oszillator" (= die Stimmbänder), vielleicht zwei oder drei nicht tonale Tongeneratoren (Zunge an Zahn, Kehllaute) und dann noch zwei oder drei Resonanz-Filter (Schlund, Mundhöhle). Man scheitert allerdings an der extrem komplexen Ansteuerung dieser "Grundmodule", zu der die Natur fähig ist.

Man kann Geräusche erzeugen, die vielleicht Stimmen oder Naturgeräusche ein kleines bisschen ähneln, aber wirklich komplett künstlich erzeugen kann man diese Klänge nicht.

Ich weiß nicht wie weit Du in der Materie drin bist, aber das, was die meisten Leute für "künstlich erzeugte Naturgeräusche" halten, das sind einfach Samples, also Aufnahmen dieser Naturgeräusche.

Gruß
Florian
 
@ summa: vielen DANK für deine antwort! zum thema resynthese muss ich mich mal wieder einlesen, vielleicht bringt mich das ein wenig weiter :)

@ fanwander: auch vielen DANK für deine antwort! ein wenig kenne ich mich aus, aber nicht allzu gut :sad: so sind mir zum beispiel die begriffe der koartikulation und ie enkodierung der akustischen merkmale bekannt + aber du hast einen interessanten ansatzpunkt!

wenn wir mal annehmen, man könnte diese komplexe ansteuerung umsetzen: dann würde mir doch ein haupt-oszillator für die tonale komponente [stimmbänder] und zwei weitere oszillatoren für die non-tonalen komponenten [ zunge/zahn + kehllaute] der Stimme [die stimme einfach so mal als beispiel genommen] ausreichen, oder?

und klar, diese komplexe ansteuerung kann man nicht rekonstruieren, aber wäre es denkbar, daß man mit ein paar wenigen hüllkurven/filterparameter und lfo/envelopes ein zumindest ähnlich klingendes ergebnis erhält? oder wäre da noch etwas zu beachten oder bedenken?
 
freder schrieb:
wenn wir mal annehmen, man könnte diese komplexe ansteuerung umsetzen: dann würde mir doch ein haupt-oszillator für die tonale komponente [stimmbänder] und zwei weitere oszillatoren für die non-tonalen komponenten [ zunge/zahn + kehllaute] der Stimme [die stimme einfach so mal als beispiel genommen] ausreichen, oder?

Njein - nur mit Oszillatoren kommst du nicht weiter. Vom Gedanken her bestimmt der Haupt-Oszillator eher die Tonart und Stimmlage. Um Sprache zu bilden benötigst du Filter und Rauschen, da Sprache zusätzlich sehr resonante Laute braucht: Formanten. In der Formant-Synthese kommen die eher aus Rauschgeneratoren. Alternativ resonierende Filter oder eine Kombination aus beidem. Beim sprechen ist das "lediglich" bewegte Luft.

Das Problem von Formant-Synthese ist die Tiefe in der man glaubhafte Resultate erzielen kann. Da landet man am Ende bei einer Modulationsmatrix mit Frequenzen, Resonanzen und Mischverhältnissen und Zeiten. Rudimentär haben wir das mal in unserem Farbrausch V2 umgesetzt. Man versteht zwar den Text - menschlich hört sich das aber nicht wirklich an ;-)

Alternativ könnte man das Ganze auch physisch modellieren. Das muss dir aber jemand anders erklären.

Grundsätzlich haben aber alle Naturgeräusche unterschiedliche Attribute aus denen sie entstehen. Ebenso unterschiedlich muss auch jeder künstliche Ansatz gestaltet sein.

Nimm dir doch mal deinen Lieblings-Synth und bau darauf Wind nach. Mit einem Standard-Set an Features kommt man da schon zumindest annähernd hin. Und versuch mal das in eine sehr authentisch klingende Version zu drehen. Da merkt man dann erst, wie viele Details darin stecken können.
 
freder schrieb:
wenn wir mal annehmen, man könnte diese komplexe ansteuerung umsetzen: dann würde mir doch ein haupt-oszillator für die tonale komponente [stimmbänder] und zwei weitere oszillatoren für die non-tonalen komponenten [ zunge/zahn + kehllaute] der Stimme [die stimme einfach so mal als beispiel genommen] ausreichen, oder?

und klar, diese komplexe ansteuerung kann man nicht rekonstruieren, aber wäre es denkbar, daß man mit ein paar wenigen hüllkurven/filterparameter und lfo/envelopes ein zumindest ähnlich klingendes ergebnis erhält?
Jein (ich beschränke mich jetzt mal auf Sprache, lasse andere Naturgeräusche weg). Kollege "rktic" hats ja schon im Prinzip angedeutet: die Natur arbeitet ja nicht wirklich mit einem Oszillator und Filtern. Das meiste passiert über unterschiedliche Resonanzen, die durch Luftströme angeregt werden. Mit Physical Modelling wäre man hier theoretisch näher dran.

Mit den Oszillatoren erzeugt man also nicht die Töne wie die Natur, sondern man versucht nur zu ähnlichen Ergebnisse mit anderen Mitteln zu kommen. Vielleicht ein Beispiel:
Horch Dir mal das hier bei 2:35 an:

Das ist ein Sound, den man bei viel gutem Willen "Ja, ja, jaaa" sagen hört. Der Sound bedient sich in keiner Weise dem oben genannten Konzept von Stimmband, Zunge und Mundhöhle. Er kommt aber zu einem ähnlichen Ergebnis. Mit dem Patch kann man aber keine anderen Silbenklänge erzeugen; ok, "jaooo" könnte er vielleicht auch noch sagen, aber bei "wohl" beißt es aus. Der Synth kann also "Ja" sagen aber nicht "Jawohl".

Die Idee zur Entwicklung elektronischer Klangerzeuger war maßgeblich von dem Traum beflügelt, Naturklänge nachzubauen. Es hat 70 Jahre und viele Forscherleben gebraucht, bis man eingesehen hat, dass es - zumindest auf diese Art - nicht geht.
 
rktic schrieb:
Alternativ könnte man das Ganze auch physisch modellieren.

ergänzend (nicht als erklärung) für den threadstarter:
wenn fokus auf "modellieren" liegt, dann erzeugt man ja ein modell, also ja eine vereinfachte darstellungen eines aspekts der wirklichen welt. man kann daher zwei bemerkenswerte punkte festhalten:
- die vereinfachung; je einfacher man das modell macht, desto unnatürlich klingt es.
- der fakt, das jedes modell nur einen aspekt darstellt. man kann ein sehr einfaches modell für den sprachtrakt des menschen bauen, der sogar mit überschaubarem aufwand konsonanten abdeckt (zum beispiel basiert CELP, der audiocodec für digitale telefone, auf so einem modell). aber der funktioniert eben nur bei menschlicher sprache gut, und versagt bei anderen geräuschen.
 
fanwander schrieb:
Der Synth kann also "Ja" sagen aber nicht "Jawohl".
Handelsüblicher Synth hat da wohl Probleme. Aber es gibt ja inzwischen recht gute "Text to Speech"-Programme, mbrola und diese Sachen.
Singen müßte eigentlich auch gehen.
 
Mit der Frequenzmodulation eines VCOs auf ein Filter oder der Crossmodulation zweier VCOs lassen sich auch vocalähnliche Sounds erstellen.
Bei Interesse einfach auch mal den PPG Phonem ansehen: Wolfgang Palm hat hier Filter zu diversen Vocalen zusammengefasst, womit sich
Stimmen recht einfach erzeugen lassen:
http://wolfgangpalm.com/phonem.html

phonem1.jpg
 
PySeq schrieb:
Handelsüblicher Synth hat da wohl Probleme. Aber es gibt ja inzwischen recht gute "Text to Speech"-Programme, mbrola und diese Sachen.
Singen müßte eigentlich auch gehen.
Die arbeiten aber letzlich alle nicht mit Synthese, sondern basieren auf der Kombination von Phonem-Samples. Letztlich sind das "nur" riesige REX Bibliotheken. Das ist was anderes.
 
intercorni schrieb:
Mit der Frequenzmodulation eines VCOs auf ein Filter oder der Crossmodulation zweier VCOs lassen sich auch vocalähnliche Sounds erstellen.
Das von mir gepostete Audiobeispiel ist lineare Crossmodulation mit einem Jupiter 6.
 
Was ist denn überhaupt ein "natürliches" Geräusch? Meeresrauschen? Donner? Ein Riß im Eis? Vogelgezwitscher? Ein umknickender Baumstamm? Ein röhrender Hirsch?

Wie dem auch sei: wenn es um die Simulation von akustischen Musikinstrumenten gehen sollte (obwohl Klaviere und Violinen nicht auf Bäumen wachsen, wird sowas ja gerne als "natürlich" im Gegensatz zu "elektronisch" = "künstlich" wahrgenommen), wäre physical modelling das Thema, z.B. PRISM von Native Instruments oder Laplace (auf dem iPad) von icegear.

So ein "normales" Instrument besteht ja aus einer Schallquelle (z.B. Saite, Membran), die einen Impuls oder Rauschen von sich gibt, das geht durch Resonatoren durch (was mann dann digital durch Rückkopplungsschleifen simuliert), am Ende kommt bei diesem Verfahren ein Ton raus, das gilt für jede Trommel, Trompete und Violine.

Wobei ich PRISM einerseits sehr mag, der macht Sounds, die ich anders nicht hinbekommen würde, aber wegen der vielen Feedbackschleifen neigt er zu unangnehmen Rückkopplungen (die sich also nicht als Wohlklang, sondern als Übersteuerung bemerkbar machen).
 
Mit FM-Synthese kann man mit relativ wenigen Einstellern ziemlich viel erreichen, was organischen Charakter hat.
Hier bildest du ohne Filter aber mit 6 Oszillatoren mit jeweils eigener Hüllkurve zur Lautstärkensteuerung (und damit auch der Steuerung der FM Intensität) Klänge, die durch das Mischverhältnis der OSC-Frequenzen zustande kommen. Damit lassen sich durchaus die gewünschten Dinge machen. Auch das ist natürlich "nur ein Modell", aber vermutlich ist es besser als ein klassischer subtraktiver Synth wie "ein Minimoog" für den Zweck geeignet und günstig zu bekommen.

Ansonsten sind mindestens 2 Filter eine Alternative mit Resonanz. Formanten nachbauen (typisch für Vokale und Erkennungsmerkmal für alle Sounds insgesamt), es kommt also drauf an, was die OSCs können.

Alternativ könntest du zwar mit Field Recording und so arbeiten, aber das wäre dann nicht mehr synthetisch sondern nur eine Bearbeitung im weiteren Sinne, die aber weit gehen kann. Eine Mischung daraus wäre ggf. das "Ideal", aber das nur nebenbei.

Meeresrauschen ist noch recht leicht zu imitieren mit Standardsynths, die einen Rauschgenerator und ein Tiefpassfilter haben, es kommt aber auch auf den Grad der Tiefe dieser Simulation an.

So gibt es irrsinnig viel - wo man die Grenze ziehen könnte oder kann. Ich würde daher eine Kombination aus den obigen Methoden wählen. Ein Plugin mit vielen Filtern wie Filterscape ist natürlich auch noch eine Ergänzung wert. Aber das wäre auch eher ein Randgebiet, da es eben "nur ein Filter-Dingsi" ist. Aber ein vollparametrisches Filter, also wo Flankensteilheit (Stärke der Filterung) und Typ einstellbar und morphbar ist.
 


News

Zurück
Oben