Neu

KI Halluziniert - Waldorf Protein Synthesizer

HOLODYNE

Bester Wisser & Groove Connaisseur
Die Tatsache, dass mir der Sound von MicroWave 1 als iOS Plugin wesentlich besser gefällt als die vom Protein, bei identischen Sound Einstellungen, hat mich nicht losgelassen. Ich bin mal in die Tiefen der Audio Processing/DSP Dokumentationen gegangen und hab sie von ChatGPT auswerten und von Gemini Pro gegen prüfen lassen.

KI Inhalt:

„Warum die iOS-App besser klingt als der ESP32-Synthesizer:
Die Überlegenheit des iOS-Sounds (mehr Dynamic, Glanz, Volumen) liegt an der überlegenen Rechenleistung (DSP) und dem saubereren Signalpfad des Smartphones, im Vergleich zur Embedded-Hardware des ESP32:
* Anti-Aliasing durch Oversampling:
* iOS: Die hohe CPU-Leistung erlaubt es, den Synthese-Code intern mit einer viel höheren Abtastrate (Oversampling) zu berechnen (z.B. 192 kHz). Dies verschiebt unerwünschtes Aliasing in unhörbare Bereiche, was den Klang glänzend und rein macht.

* ESP32: Muss oft mit der Standard-Abtastrate (44.1 kHz oder 48 kHz) ohne Oversampling arbeiten. Das resultierende Aliasing (Spiegelfrequenzen) führt zu einem härteren, weniger sauberen Sound.
* Sauberer Digital-Analog-Wandler (DAC) Pfad:
* iOS: Der eingebaute Audio-Stack bietet einen extrem rauscharmen, gut abgeschirmten DAC-Pfad mit optimiertem Power Management.
* ESP32: Die Audioqualität hängt stark von der Umsetzung der Platine ab. Der DAC-Ausgang ist anfällig für digitales Rauschen und Übersprechen von der ESP32-CPU und den Funkmodulen (WiFi/BT), was den Klang weniger voluminös macht.
* Präzision der Arithmetik:
* iOS: Verwendet verlustfreie Fließkomma-Arithmetik (Floating-Point), um Rundungsfehler zu vermeiden.
* ESP32: Muss eventuell Festkomma-Arithmetik (Fixed-Point) verwenden, was zu leichten Quantisierungsfehlern und Rauschen führen kann.

Kurz gesagt: Der iOS-Chip rechnet das Signal digital sauberer, und der Apple-Signalpfad wandelt es anschließend sauberer analog um.“

KI Inhalt Ende…..

Es scheint also doch nicht nur Geschmackssache zu sein, wenn die Ausführungen stimmen….
 
Zuletzt bearbeitet:

* iOS: Die hohe CPU-Leistung erlaubt es, den Synthese-Code intern mit einer viel höheren Abtastrate (Oversampling) zu berechnen (z.B. 192 kHz). Dies verschiebt unerwünschtes Aliasing in unhörbare Bereiche, was den Klang glänzend und rein macht.
Hier irrt die KI natürlich. Welche interne Samplerate hat die den Waldorf ASIC nachahmende Software des Plug-Ins und des Protein? 240 kHz lt. Rolf (vgl. diverse Interviews).

Und außerdem will man im Plug-In und im Protein den Charakter eines alten 8 Bit DACs ja grade erzeugen.

Wie sagte der Professor zur KI-Forschung: Wer KI nutzt gibt den Anspruch an Richtigkeit und Vollständigkeit auf.

Bitte selber denken und Quellen (z.B. Interview von Moogulator mit Rolf anhören) nutzen.
 
  • Zustimmung
M.i.a.u.: Synthet, robworld und microbug
Dass das Ganze gleich wieder in reflexartigen Vorhaltungen („zu faul selber zu denken und KI anmachen“) mündet, war mir schon vorher klar. 👍

Hier aber meine 100% eigenen Gedanken, die ganz schlicht auf Logik basieren:

Wenn der subjektive Vergleich zu Gunsten des Plugins ausfällt, muss das einen Grund haben. Für mich ist der logische Grund, dass die Emulation ASICS mittels ESP32 eben nicht zielführend gut genug gelöst wurde/lösbar ist. Und wenn wirklich beide mit 240 KHZ simuliert intern takten muss das Ergebnis natürlich anschließend auf den hörbaren Bereich vom DAC herunter getaktet werden. Und genau dies scheint dem Apple CPU aufgrund höherer Rechenleistung wahrscheinlich besser zu gelingen.

Der geneigte Neugierige darf auch gerne nach folgendem googeln
“ Filter Probleme beim ESP32„ und „
Arithmetik-Präzision (Floating vs. Fixed-Point)“

Dieser Sachverhalt erklärt dann auch, warum ich einen anderen kleinen Synth, den ich mal hatte nicht überzeugend fand, der mit diesem Chip arbeitete)

Nur weil es mit einer KI analysiert wurde, muss es nicht falsch sein. Nur weil jemand sich persönlich sämtliche Schaltpläne angeschaut hat, muss es nicht automatisch richtig sein, was seine Schlussfolgerung dann ist.

Entscheidend ist, dass man die richtigen Fragen neutral stellt und die richtigen Schlussfolgerungen zieht, oder? Ich bin daher immer ein Freund von Logik.


Und meine persönliche letzte Instanz ist mein Gehör.
 
Zuletzt bearbeitet:
Dass das Ganze gleich wieder in reflexartigen Vorhaltungen („zu faul selber zu denken und KI anmachen“) mündet, war mir schon vorher klar. 👍
(Ich arbeite übrigens beruflich mit hochspezialisierten vernetzten Agenten)

Hier meine eigenen Gedanken, die ganz schlicht auf Logik basieren:

Wenn der subjektive Vergleich zu Gunsten des Plugins ausfällt, muss das ein Grund haben. Für mich ist der logische Grund, dass die Emulation ASICS mittels ESP32 Hardware eben nicht zielführend gut genug gelöst wurde. Und wenn wirklich beide mit 240 KHZ simuliert intern takten muss das Ergebnis natürlich anschließend auf den hörbaren Bereich vom DAC herunter getaktet werden. Und genau dies scheint dem Apple CPU aufgrund höherer Rechenleistung wahrscheinlich besser zu gelingen.

Der geneigte neugierige darf auch gerne nach folgendem googeln
“ Filter Probleme beim ESP32„ und „
Arithmetik-Präzision (Floating vs. Fixed-Point)“

Das erklärt auch, warum ich einen anderen kleinen Synth, den ich mal hatte nicht überzeugend fand, der mit diesem Chip arbeitete)

Nur weil es mit einer KI analysiert wurde, muss es nicht falsch sein. Nur weil jemand sich persönlich sämtliche Schaltpläne angeschaut hat, muss es nicht automatisch richtig sein, was seine Schlussfolgerung dann ist.

Entscheidend ist, dass man die richtigen Fragen stellt und die richtigen Schlussfolgerungen zieht, oder? Ich bin daher immer ein Freund von Logik.

Nicht das Werkzeug entscheidet über Qualität, sondern wie man es anwendet.

Warum verlinkst du nicht einfach Deine vollständige KI-Anfragen,
damit man alles transparent nachvollziehen kann?

Der Prompt und wie die KI-Antwort zustande gekommen sind,
ist idR aussagekräftiger, als das Ergebnis am Ende
 
  • Daumen hoch
M.i.a.u.: Synthesilent
Den Ansatz die gestellten Fragen zu erfahren ist macht absolut Sinn. Weil: logisch. Da mache ich auch kein Geheimnis draus, aber zunächst würde ich gerne wissen, ob meine Logik auf Resonanz stößt, einfach um das menschliche manuelle denken, noch einmal abzuholen…

P.S. ich will hier keinen Wettkampf, sondern Dinge zur Diskussion stellen
 
Zuletzt bearbeitet:
Nicht das Werkzeug entscheidet über Qualität, sondern wie man es anwendet.
Jo, und Dein Post ist das beste Beispiel für den Schmarn den so eine KI halluziniert.
* Anti-Aliasing durch Oversampling:
* iOS: Die hohe CPU-Leistung erlaubt es, den Synthese-Code intern mit einer viel höheren Abtastrate (Oversampling) zu berechnen (z.B. 192 kHz). Dies verschiebt unerwünschtes Aliasing in unhörbare Bereiche, was den Klang glänzend und rein macht.

* ESP32: Muss oft mit der Standard-Abtastrate (44.1 kHz oder 48 kHz) ohne Oversampling arbeiten. Das resultierende Aliasing (Spiegelfrequenzen) führt zu einem härteren, weniger sauberen Sound.
Ein Aussage wird nicht wahrer indem ich die drei mal anders formuliere. Und mit Bezug auf den ESP32 bleibt selbst Deine KI textuell bei einer Annahme. Nur weil die meisten DIY Projekte die üblichen 48kHz nehmen heißt das nicht das der ESP32 keine 192 kHz kann. (Er kann es nämlich)
* Sauberer Digital-Analog-Wandler (DAC) Pfad:
* iOS: Der eingebaute Audio-Stack bietet einen extrem rauscharmen, gut abgeschirmten DAC-Pfad mit optimiertem Power Management.
Der Audio Stack? Was genau soll das heißen? Bei iPAD werden die Bits auf Ihrem weg vom RAM durch die CPU zum DAC in Watte gepackt und kommen dadurch sanft im DAC an? Was für ein Unsinn.
* ESP32: Die Audioqualität hängt stark von der Umsetzung der Platine ab. Der DAC-Ausgang ist anfällig für digitales Rauschen und Übersprechen von der ESP32-CPU und den Funkmodulen (WiFi/BT), was den Klang weniger voluminös macht.
LOL. Das iPad hat wohl kein WLAN? Und man stelle sich vor, sowohl beim iPad als auch beim ESP32 lässt sich das abschalten. Und natürlich kommt es auch ein bischen auf das Platinenlayout an. Das hat aber rein gar nix mit dem ESP zu tun, das gilt fürs iPad genause. (Wo sich im übrigen viel mehr störende Digitaltechnik auf viel kleinerem Platz tummelt)
* Präzision der Arithmetik:
* iOS: Verwendet verlustfreie Fließkomma-Arithmetik (Floating-Point), um Rundungsfehler zu vermeiden.
* ESP32: Muss eventuell Festkomma-Arithmetik (Fixed-Point) verwenden, was zu leichten Quantisierungsfehlern und Rauschen führen kann.
Muss, eventuell? Es gibt ESPs die Fließkomma können. Und man stelle sich vor, die ganzen alten Synths setzen DSPs ein die alle mit Fixkommarithmetik arbeiten. Der hier im Forum öfter genannte DSP56300 hat nicht mal 32 bit. Und nun? Im übrigen ist Floatingpoint eben gerade nicht verlustfrei. Addiere einfach mal "1 + 1e-16" als 64 bit floating point.

Kurz gesagt: Der iOS-Chip rechnet das Signal digital sauberer, und der Apple-Signalpfad wandelt es anschließend sauberer analog um.“

KI Inhalt Ende…..
Zum Glück. Selten so einen Quatsch gelesen.
 
  • Zustimmung
M.i.a.u.: qwave und microbug
wie kann ich bei teils so vernichtenden Formulierungen und offensichtlich so tief technisch komplexen (für Nichttechniker kaum nachvollziehbaren) Terminiketten irgendwas entgegenhalten ? Kann ich nicht. Will ich nicht.

Problem ist, dass ich gar nichts behauptet, sondern zur Diskussion gestellt habe. Das habe ich auch eindeutig gekennzeichnet…..

Mir ging es lediglich darum zu ergründen warum mir der pure WT Sound von MW1 Plugin um Längen besser gefällt als vom Protein.
Da schien mir die Argumentation die die KI ermittelt hat zunächst nachvollziehbar.

1. Was spricht denn dagegen dass die Emulation des MW1 eben kompromissbehaftet ist mit dem ESP32?
2. Oder liegt es vielleicht an einer unsauberen Umsetzung?
3. Vielleicht ist die Apple CPU
Ggü dem ESP32 zu einer fehlerfreieren Decimation (Tiefpassfilter) in der Lage und dadurch ein reineres 48Khz Signal am Ausgang erzeugen und es liegt daran?

Ob und wie auch immer hier die Antworten aussehen. Bitte immer schön höflich bleiben ok?

@amesser ich bin Musiker, kein Elektroniker (obwohl mal gelernt). Mein Werkzeug, dem ich vertraue, ist mein Gehör, nicht der Lötkolben 😎
 
Zuletzt bearbeitet:
Den Ansatz die gestellten Fragen zu erfahren ist macht absolut Sinn. Weil: logisch. Da mache ich auch kein Geheimnis draus, aber zunächst würde ich gerne wissen, ob meine Logik auf Resonanz stößt, einfach um das menschliche manuelle denken, noch einmal abzuholen…

P.S. ich will hier keinen Wettkampf, sondern Dinge zur Diskussion stellen

...Problem ist, dass ich gar nichts behauptet, sondern zur Diskussion gestellt habe. Das habe ich auch eindeutig gekennzeichnet…..

Du stellst zuerst eine KI-Antwort rein,
die für mich gebiast und wie eine Behauptung klingt:
"Warum die iOS-App besser klingt als der ESP32-Synthesizer:"
Deswegen die explizite Frage nach den Links zu ChatGPT/Gemini,
damit man transparent nachvollziehen kann wie die Antworten zustande kamen.

KI-Links samt Prompt bekommen wir (erstmal?) keine,
aber wir sollen uns Deiner Logik widmen.
Das hat Kollege @amesser ausführlich getan - wenn auch etwas ruppig.
Das gefällt Dir nicht - weil du (wie ich) als Elektronik-Laie nur halb/viertel/8tel in der Materie steckst(?)
wie kann ich bei einem so vernichtenden Formulierungen und offensichtlich so tiefen technisch fundierter Argumentationskette irgendwas entgegenhalten ? Kann ich nicht. Will ich nicht. ...

Und zu guter Letzt unterstellst du Waldorf (mindestens indirekt) "unsaubere Umsetzung"
um endlich die Antwort zu finden, warum Dir persönlich iOS MW klanglich besser gefällt als Protein:

1. Was spricht denn dagegen dass die Emulation des MW1 eben kompromissbehaftet ist mit dem ESP32?
2. Oder liegt es vielleicht an der unsauberen Unsetzung?
...

Ich verstehe Dein Anliegen, kann es auch in mancher Hinsicht nachvollziehen,
aber es klingt für mich als versuchst du auf Teufel/KI komm raus die Ursache für Dein persönlichen Geschmack
(den dir niemand streitig machen möchte)
in "unsauberer" oder "kompromissbehafteter" Umsetzung zu suchen.

Das hat schon ein Geschmäckle

Ich würde grundlegend davon ausgehen, dass der Protein zu 100% so klingt wie vom Entwickler vorgesehen.
Alles andere macht für mich wenig bis keinen Sinn.

Warum hast du nicht einfach musikalische Beispiele geliefert MW vs Protein?
Dann könnte man Dein Anliegen sicherlich deutlich besser nachvollziehen!
Du sagst ja selbt:
... ich bin Musiker, kein Elektroniker (obwohl mal gelernt). Mein Werkzeug, dem ich vertraue, ist mein Gehör, nicht der Lötkolben 😎
 
Zuletzt bearbeitet:
  • Zustimmung
M.i.a.u.: Synthesilent, qwave und microbug
Hier die ultimative Wahrheit, geschrieben von ChatGPT:

"Hier sind die tatsächlichen Hauptgründe, warum ein Hardware-Synth wie der Waldorf Protein oft „besser“ oder zumindest charaktervoller, fokussierter und lebendiger klingt als viele Software-Plugins:

⭐ 1. Spezialisierte DSP-Architektur
Ein Gerät wie der Waldorf Protein besitzt dedizierte DSP-Chips, die ausschließlich für die Berechnung der Klangerzeugung optimiert sind.
Das bedeutet:
- extrem stabile Sample-Timings
- deterministische Berechnung (im Gegensatz zu Betriebssystemen, die Prozesse ständig schedulen)
- oft höhere interne Oversampling-Raten
- DSP-Berechnungen ohne die Kompromisse, die VST/AU-Plugins aus Performancegründen häufig eingehen müssen
Das führt zu präziserem, saubererem oder auch beabsichtigt „dreckigerem“ Klang, je nach Design.

⭐ 2. Der Sound des Geräts ist bewusst „gestaltet“
Hochwertige Hardware-Synths sind keine neutralen Rechenmaschinen.
Sie haben:
- eigene Filter-Charakteristiken (oft nicht 1:1 mit Plugins vergleichbar)
- bestimmte Sättigungsstufen / Drive-Stufen
- analoge Stufen (z. B. Ausgangsverstärker), die den Sound färben
- bewusst gestaltetes Rauschen, Drift, Modulationsverhalten, das musikalisch wirkt
Viele Plugins versuchen, „klinisch sauber“ zu sein, sofern sie nicht explizit analog modellieren – und verlieren dadurch Charakter.

⭐ 3. Mit DSP-Hardware kann man „größere“ Algorithmen fahren
Viele Hardware-Synths leisten sich intern:
- höhere Bitbreiten (z. B. 32–40 bit für Filterkaskaden)
- höhere interne Sampleraten (z. B. 96/192 kHz oder noch darüber)
- teure Berechnungen, die bei Plugins oft zu CPU-hungrig wären
Plugins müssen auf jedem Rechner laufen, vom alten Laptop bis zum High-End-Studio, und fahren deshalb oft sparsamere Algorithmen.

⭐ 4. Timing: Hardware ist fast jitterfrei
Ein DSP im Synth berechnet immer:

Sample → Filter → Modulation → Output

…mit exakt derselben Verzögerung jedes einzelnen Taktes.

Ein Computer dagegen:
- wechselt ständig Tasks
- nutzt variable Buffergrößen
- hat Scheduling-Jitter
- muss Peripherie, Grafik etc. bedienen
Der Unterschied liegt nicht darin, dass der Computer „zu viel macht“, sondern dass Audio dort nicht das einzige Echtzeitsystem ist.
Das kann – subtil aber messbar – das Transientenverhalten verändern.

⭐ 5. Intuition und Fokus beeinflussen den Eindruck stark
Auch nicht zu unterschätzen:
- Hardware führt zu anderer Arbeitsweise
- people tend to dial in better patches on intuitive hardware
- man hört anders, wenn man dreht statt klickt
Das ist kein technisches Argument, aber beeinflusst die „Qualitätswahrnehmung“."

Meine Anfrage war:

"Warum klingt der Synthesizer Waldorf Protein so viel besser als die meisten Plugins für Computer und iPad? Liegt es zum größten Teil daran, dass Computer und iPad sehr universell ausgelegt sind und viele Prozesse nebenbei bearbeiten, die mit der Klangerzeugung nichts zu tun haben?"

:-)
 
  • #10
Die Tatsache, dass mir der Sound von MicroWave 1 als iOS Plugin wesentlich besser gefällt als die vom Protein, bei identischen Sound Einstellungen, hat mich nicht losgelassen. Ich bin mal in die Tiefen der Audio Processing/DSP Dokumentationen gegangen und hab sie von ChatGPT auswerten und von Gemini Pro gegen prüfen lassen.

KI Inhalt:

„Warum die iOS-App besser klingt als der ESP32-Synthesizer:
KI Inhalt Ende…..

Es scheint also doch nicht nur Geschmackssache zu sein, wenn die Ausführungen stimmen….
Der Prompt war an dieser Stelle aber auch schon Mist, wenn ich das so unverblümt sagen darf. Wenn du die KI mit einer Suggestivfrage fütterst (Warum ist "A" besser als "B"?) - Die ChatGPT Antwort impliziert das sehr stark -, wird sie dir in den meisten Fällen eine Antwort erfinden, die deine Meinung widerspiegelt. Ohne Fakten, aber mit dem Ziel, dich überzeugt zurückzulassen. Das ist derzeit noch ein wesentlicher Kritikpunkt bei den meisten Varianten.
 
Zuletzt bearbeitet:
  • Zustimmung
M.i.a.u.: Rasenmähermann
  • #11
Die Frage nach dem Prompt kam zum einen gestern etwa zum gleichen Zeitpunkt, wie mein Schlafbedürfnis einsetzte.
Zum Anderen handelte es sich nicht nur um einen einzelnen Prompt, sondern eine umfangreiche Konversation mit (Gemini <-> ChatGPT) weiteren kritischen Gegenprüffragen, Reiche ich gern nach.


Klarstellung zu meiner Nutzung der KI und zur angewandten Methodik

Mir geht es in dieser Diskussion ausdrücklich nicht darum, eine These durch eine KI „bestätigen zu lassen“ oder ihr eine Meinung unterzuschieben. Ausgangspunkt war lediglich meine subjektive Wahrnehmung, dass zwei technisch sehr ähnliche Umsetzungen eines Synthesizers – einmal als iOS Software, einmal als Hardware auf einem ESP32 – qualitativ unterschiedlich klingen könnten.

Die Fragestellung an die KI lautete daher nicht „Warum klingt iOS MW1 besser als PROTEIN?“, sondern sinngemäß:
(wie zugesagt komplette Promptkonservationen kommen noch)

„Welche Faktoren könnten erklären, dass man trotz identischem oder wahrscheinlich sehr ähnlichem Code klangliche Unterschiede (Volumen, Dynamik, Glanz) wahrnimmt?“
Das ist eine offene, explorative Frage, keine vorweggenommene Beweisführung.
Die ausgegebene Analyse habe ich dann gepostet als Grundlage für eine Diskussion. Zumal die Erläuterungen mir eine logische Argumentationskette lieferten, die diese Annahme für mich persönlich untermauert.



Als anschließend gegenteilige Meinungen geäußert wurden, habe ich diese bewusst als Gegenthese ebenfalls eingebracht und zur Diskussion gestellt. Ziel war es gerade nicht, eine Position zu zementieren, sondern alternative Erklärungen zu prüfen und einzuordnen. Methodisch entspricht das einer Hypothesen- und Gegenhypothesen-Betrachtung, nicht einem Bestätigungsbias wie mir hier vorgeworfen wird.

Mir ist dabei auch wichtig zu betonen:

Ich habe weder behauptet, dass die KI eine Authorität darstellt, noch dass ihre Antworten „Beweise“ seien. Ich nutzte sie als Analysetool, um mögliche technische, psychoakustische und systemische Einflussfaktoren systematisch zu ermitteln – mehr nicht.

Zudem habe ich ausdrücklich von subjektiver Wahrnehmung gesprochen. Dass identischer Code in unterschiedlichen Umgebungen (Betriebssystem, Audio-Backnd, Clock-Stabilität, DAC, Gain-Struktur, Latenzen etc.) nicht zwangsläufig zu identischer Wahrnehmung führt, ist aus technischer wie psychoakustischer Sicht kein abwegiger Gedanke.

Es wäre schön, wenn man die Diskussion hier offen führen könnte, ohne die Befürchtung, unnötige Emotionalität zu provozieren.
Oder bildhafter: „KI Bias Anwender! Auf den Scheiterhaufen mit ihm!“
 
Zuletzt bearbeitet:
  • #12
Ganz nebenbei: Es ist noch nicht geklärt, ob es wirklich der ESP32 und kein anderer von ESP ist. Auf meinen Fotos war der ja unter dem Display "versteckt". Ein Foto ohne Display habe ich noch nicht gesehen. Eine Aussage von Waldorf gibt es auch nicht.
 
  • Daumen hoch
M.i.a.u.: Lumm
  • #13
Mod: Bitte checkt die Regeln - die KI Inhalte sollten in Spoiler gepackt werden, gern mit Prompt und Name, da die meist bei Synths in Details bruchstückhaft sind und KI sich eh von hier auch Daten holen. Daher bitte lieber eigene Worte - das wurde kürzlich Rumgeschickt per PN https://www.sequencer.de/synthesizer/threads/rundmail-regeln-geht-rum-an-alle-gegangen-bitte-keine-pn-deshalb-schreiben-ggf-hier-antworten-wenn-es-ein-problem-damit-gibt.177538/
Ist natürlich auch so gemeint - bitte nicht einfach so Halbwahrheiten posten. Der Spoiler ist dieser hier:
das wäre ein Demo wie es soll
Es sollte konkret sein, die meisten hier sind so fit, dass man das auch direkt sagen kann und sollte, vermeidet Probleme.

Rolf sagte schon ESP, aber nicht ESP32 explizit.
Die Annahme, dass man mehr raus holen könnte mit stärkerem Prozessor - natürlich.
Dann kostet der Synth mehr und ist machbar, wenn ein anderer Stein da drin steckt.
 
  • Daumen hoch
M.i.a.u.: HOLODYNE
  • #15
Ich bin gern bereit, die gesamte Konversation mit Gemini und ChatGPT zur Verfügung zu stellen. Jedoch ist sie wirklich extrem umfangreich und ich möchte das ordentlich strukturieren. Deswegen mache ich das erst heute Abend. (irgendwie muss man ja auch Geld verdienen, um die ganzen Plunder hier bezahlen zu können,-).

Die Sache mit der Rechenpower als Ursache habe ich noch mal beim Frühstücksbrötchen hinterfragt:

IMG_8102.webp

Gemini KI: „Würden Sie gerne, dass ich Ihnen einen Bild-Tag hinzufüge, um den Unterschied zwischen einem einfachen und einem hochqualitativen Decimation Filter visuell zu verdeutlichen?

“Antwort: „Ja“

Gerne erläutere ich die gerade generierte Grafik. Sie visualisiert den zentralen technischen Unterschied in der digitalen Signalverarbeitung (Decimation), der höchstwahrscheinlich für den besseren Klang der iOS-App verantwortlich ist.
Die Grafik vergleicht, was mit dem Audiosignal passiert, wenn es von der internen hohen Rechenrate (240\text{ kHz}) auf die Ausgaberate (48\text{ kHz}) heruntergerechnet wird.
📉 Erläuterung der Decimation-Grafik
Die Grafik ist in zwei Hauptbereiche unterteilt, die jeweils ein Frequenzgang-Diagramm und eine symbolische Wellenform zeigen:
1. ⚙️ ESP32 (Compromised Filter) – Das Problem
Auf der linken Seite wird die Situation dargestellt, in der das Decimation Filter (das Tiefpassfilter) aufgrund begrenzter Rechenleistung vereinfacht werden muss.
* Oberes Diagramm (Frequenzgang):
* Die X-Achse (Frequenz) reicht bis zur neuen Nyquist-Frequenz von 24\text{ kHz} (die Hälfte von 48\text{ kHz}).
* Die blaue Kurve zeigt den Frequenzverlauf des Decimation-Filters.
* Der Mangel: Das Filter ist nicht steil genug. Außerdem ist der Bereich unterhalb von 24\text{ kHz} nicht komplett sauber (gewellter Hintergrund). Dies bedeutet, das Filter arbeitet nicht perfekt, und Frequenzanteile aus dem hohen Frequenzbereich (die eigentlich entfernt werden müssten) schaffen es zurück in den hörbaren Bereich.
* Untere Wellenform (Symbolisch):
* Die Wellenform sieht rau, unsauber und leicht verzerrt aus (Symbol für das unsaubere Signal).
* Interpretation: Die unerwünschten digitalen Artefakte (Decimation-Fehler/Aliasing) überlagern das eigentliche Audiosignal und machen den Klang weniger voluminös und unsauber.
2. 📱 iOS (High-Quality Filter) – Die Lösung
Auf der rechten Seite wird die Situation dargestellt, in der die massive Rechenleistung des iOS-Chips für ein hochwertiges Decimation Filter genutzt wird.
* Oberes Diagramm (Frequenzgang):
* Die blaue Kurve zeigt einen deutlich steileren Abfall des Filters.
* Der Vorteil: Das Filter kann die hohen Frequenzen (>24\text{ kHz}) effizienter und präziser abschneiden. Es gibt keine Artefakte (keine Wellen) unterhalb der 24\text{ kHz}-Grenze.
* Untere Wellenform (Symbolisch):
* Die Wellenform ist sauberer, präziser und definierter (Symbol für das reine Signal).
* Interpretation: Das Signal enthält nur die beabsichtigten Klanginformationen. Dies ermöglicht die lupenreine Emulation des beabsichtigten 8-Bit-Charakters und führt zu dem von Ihnen beschriebenen glänzenden, voluminösen Klang.
Zusammenfassend
Die Grafik verdeutlicht den Qualitätsunterschied im digitalen Filter. Das iOS-Gerät kann ein technisch perfekteres Filter berechnen, das das Audiosignal sauber von 240\text{ kHz} auf 48\text{ kHz} umwandelt. Das ESP32-System muss aus Performance-Gründen Kompromisse eingehen, die digitale Artefakte im Ausgangssignal hinterlassen.
 
Zuletzt bearbeitet:
  • #16
wie kann ich bei teils so vernichtenden Formulierungen und offensichtlich so tief technisch komplexen (für Nichttechniker kaum nachvollziehbaren) Terminiketten irgendwas entgegenhalten ? Kann ich nicht. Will ich nicht.

Problem ist, dass ich gar nichts behauptet, sondern zur Diskussion gestellt habe. Das habe ich auch eindeutig gekennzeichnet…..

Mir ging es lediglich darum zu ergründen warum mir der pure WT Sound von MW1 Plugin um Längen besser gefällt als vom Protein.
Da schien mir die Argumentation die die KI ermittelt hat zunächst nachvollziehbar.
Da bin ich wohl mal wieder etwas forsch rüber gekommen. Tut mir leid. Tatsächlich gehen mir allerdings inzwischen die regelmäßigen KI Zitate auf den Nerv. Ein Trend der sich leider in immer mehr Foren ausbreitet. Ich persönlich finde das ziemlich unhöflich. Wenn ich mir die Zeit nehme mich mit jemanden über ein Thema auszutauschen, dann erwarte ich das Gleiche von der Gegenseite und nicht vom computer generierte Texte. Zurück zum Thema

Möglicherweise soll der Protein gar nicht wie der MW1 klingen? Ich denke er klingt halt so wie er klingt. Das das nicht jedem gefällt liegt ja in der Natur der Sache - Zum Glück, wäre ja langweilig. Wenn mir eine Band weniger gut gefällt als eine Andere, dann ist mein erster Gedanke dann halt auch eher "nicht mein Geschmack" und nicht etwa "könnte die Haarfarbe des Sängers daran schuld sein?"

1. Was spricht denn dagegen dass die Emulation des MW1 eben kompromissbehaftet ist mit dem ESP32?
2. Oder liegt es vielleicht an einer unsauberen Umsetzung?
3. Vielleicht ist die Apple CPU
Ggü dem ESP32 zu einer fehlerfreieren Decimation (Tiefpassfilter) in der Lage und dadurch ein reineres 48Khz Signal am Ausgang erzeugen und es liegt daran?
Rein technisch gesehen (ignorieren wir mal die verfügbare Rechenleistung): nimmt man ein und dieselbe Software und portiert diese exakt identisch auf irgend ein beliebiges System, wird dieses System exakt den gleichen Output liefern wie auf allen anderen Systemen. Dein Filter ist ein gutes Beispiel. Ob ich den identischen Filterprogrammcode auf einem 8 Bit AVR, einem 16 oder 24 Bit DSP, nem 32 Bit ARM, ESP32, RiscV oder einem PC oder Apple laufen lasse. Es wird bei gleichem Input immer der gleiche Output rauskommen. Wenn nicht, ist der Quellcode Schrott. Es ist ziemlich genau definiert, was eine bestimmte Anweisung oder Ausdruck machen soll, da hat der Compiler der den Quellcode in das ausführbare Programm umsetzt nur wenig Spielraum.

Der Unterschied besteht darin, wie schnell das Ergebnis kommt. Der AVR wird vermutlich viel mehr Zeit benötigen als der PC. Die Frage die sich der Entwickler stellen muss: Ist es schnell genug für meine Anwendung. Wenn nicht, dann braucht man entweder potentere Hardware oder muss eben irgendwo Abstriche machen. Nehmen wir nun mal an, ich mache den Code einfacher. Packe ich diesen einfacher Code dann auf ein potenteres System, dann wird er trotzdem das Gleiche Ergebniss liefern wie auf dem schwächeren System, ist halt der gleiche Quellcode.

Die eigentlich Frage ist also, soll der Protein überhaupt wie der Microwave klingen? Möglicherweise war es etwas ungünstig von Waldorf überhaupt den Hinweis darauf mit in die Produktbeschreibung aufzunehmen.

Das die Rechenleistung des ESP(32) nicht reicht kann ich mir nicht vorstellen. Zum Vergleich schaue man sich einfach mal den Buzzzy von Fred an. Da drinen werkelt ein Single-Core Cortex-M4 mit max 168 Mhz, die meisten ESP sind da besser bestückt. Und der Buzzzy macht auch vier Parts Wave-Table Synthese + (1x Effekt oder Filter je Part) sowie noch ein LFO. Filter geht allerdings arg auf die Stimmen. Ich tippe mal auf nen ESP32-S2 oder S3.
 
  • hilfreich
M.i.a.u.: robworld
  • #17
Danke für deine Rückmeldung. Ich kann sämtliche Punkte verstehen, bis auf einige technischen, den ich nicht folgen kann ;-) soweit habe ich aber verstanden, dass die Applikationen sozusagen in Containern ablaufen und nicht unterschiedlich klingen können. Es sei denn es ist gewollt. Korrigiere mich, falls nötig.

Ich habe ja auch noch einen anderen des Häuser besessen, ebenfalls mit einem ESP, bei dem ich exakt die gleiche akustische Erfahrung gemacht habe Den Namen des Synths möchte ich jetzt hier im Forum nicht nennen, weil das sonst zu Unmut aufgrund von Solidaritätsbekundungen führen würde.

Im übrigen bin ich sogar immer in der Hardware Fraktion unterwegs, so dass ich auch da nicht voreingenommen bin, wenn ich mich für eine Software Variante entscheide.

Ich stimme zu, dass Rolf im Interview das Plugin als Grundlage für den PROTEIN genannt hat, weshalb man sich natürlich daran aufhängt.
Die Wavetables, die ich geprüft habe, waren aber auch absolut identisch, so dass das noch untermauert wurde.

Dass der ESP genug Power hat, hatte ich auch angezweifelt, weil ein Kumpel von mir ein MIDI Sequenzer gebaut hat, der nur einen ESP hat und tatsächlich am strugglen war bei CC Recordings. Er meinte, zukünftig würde er wohl einen zweiten nutzen für die Entlastung. also auch hier wurde meine Vermutung unterstützt.
 
  • #19
Mir geht es nicht darum, aus meinem Eindruck eine Wahrheit zu machen.

Mich interessiert, warum mein Eindruck so ist – selbst wenn er am Ende rein subjektiv bleibt.

Das halte ich für Neugier, nicht für Objektivierungsversuch.

Kant würde vermutlich sagen, dass Wahrnehmung nie grundlos ist, aber auch nie unabhängig vom Wahrnehmenden.

Aber ich riskiere jetzt nicht wieder erneut verschoben zu werden in das Unter-Forum Philosophie 😅
 
Zuletzt bearbeitet:
  • #20
Puh ich muss auch mal Arbeiten :grin:

Tendenziell ist es so, das der ESP relativ komplex ist. Ich habe mit dem auch schon was gemacht. Mein üblicher Ansatz ist eigentlich, Das meiste von Grund auf selbst umzusetzen (auf Basis der Datenblätter) und keine vorgefertigen Softwarekomponenten zu verwenden. Bei den einfachen 8 Bitter sowieso, aber auch bei den STM32 Mickros habe ich das gemacht, weil ich deren damaliges Softwarepacket/Treiberschicht als viel zu aufgeblasen empfand.

Beim ESP32 hab ich das am Anfang zwar versucht, relativ schnell aber aufgeben und das von Espressif gelieferte SDK benutzt. Das SDK von denen ist eigentlich ziemlich gut, aber, es kommt halt grundsätzlich mit einem Betriebssystem daher (FreeRTOS). D.h. selbst wenn man kein Betriebssystem bräuchte (Braucht man in dem Bereich oft nicht) hat man es beim ESP halt mit drinnen. Und das frisst natürlich schon etwas Resourcen. Denke aber wie gesagt, nicht das dass das Grund ist. Möglicherweise liegts halt einfach an der Syntheseart bzw ist so gewollt. Aber das ist halt Spekulation.

Wenn du mal einen (Opensource) Synth findest, der dir gefällt und der nicht auf dem ESP läuft, sag mir mal Bescheid. Bei Zeit kann ich den dann mal portieren und dann können wir vergleichen :-)
 
  • #21
Puh ich muss auch mal Arbeiten :grin:

Tendenziell ist es so, das der ESP relativ komplex ist. Ich habe mit dem auch schon was gemacht. Mein üblicher Ansatz ist eigentlich, Das meiste von Grund auf selbst umzusetzen (auf Basis der Datenblätter) und keine vorgefertigen Softwarekomponenten zu verwenden. Bei den einfachen 8 Bitter sowieso, aber auch bei den STM32 Mickros habe ich das gemacht, weil ich deren damaliges Softwarepacket/Treiberschicht als viel zu aufgeblasen empfand.

Beim ESP32 hab ich das am Anfang zwar versucht, relativ schnell aber aufgeben und das von Espressif gelieferte SDK benutzt. Das SDK von denen ist eigentlich ziemlich gut, aber, es kommt halt grundsätzlich mit einem Betriebssystem daher (FreeRTOS). D.h. selbst wenn man kein Betriebssystem bräuchte (Braucht man in dem Bereich oft nicht) hat man es beim ESP halt mit drinnen. Und das frisst natürlich schon etwas Resourcen. Denke aber wie gesagt, nicht das dass das Grund ist. Möglicherweise liegts halt einfach an der Syntheseart bzw ist so gewollt. Aber das ist halt Spekulation.

Wenn du mal einen (Opensource) Synth findest, der dir gefällt und der nicht auf dem ESP läuft, sag mir mal Bescheid. Bei Zeit kann ich den dann mal portieren und dann können wir vergleichen :-)
Ha! Gibt es: TAL-NoiseMaker
 
  • #23
Ne, anscheinend nur free

Edit: Geonkick ist FOSS bzw. Open Source
 
Zuletzt bearbeitet:

Ähnliche Themen


Neue Beiträge

News

Zurück
Oben