Skip to main content

Audio Waveform Generator

Generate a SoundCloud-style waveform image from any audio file. Decoded in your browser, exported as PNG or SVG.

Geprüft von · Zuletzt geprüft

So nutzt du den Audio-Wellenform-Generator

  1. Audiodatei ablegen auf dem Upload-Bereich. MP3, WAV, M4A, OGG und FLAC bis zu 200 MB werden akzeptiert. Die Datei wird vollständig im Browser mit der Web Audio API dekodiert; es wird nichts hochgeladen.
  2. Visuellen Stil wählen: Balken (nur oben, der klassische SoundCloud-Look), Spiegel (oben + unten symmetrisch, wie Audacity) oder kontinuierliche gefüllte Linie für ein glatteres, analoges Gefühl.
  3. Farben und Dimensionen anpassen: Vordergrund, Hintergrund, Breite und Höhe. Standardmäßig wird in 1200x240 px gerendert, was für die meisten Blog-Titelbilder und Podcast-Cover geeignet ist; für High-DPI-Thumbnails auf 1920x480 erhöhen.
  4. Als PNG oder SVG herunterladen. PNG ist die richtige Wahl für Raster-Thumbnails (Twitter Cards, OG-Bilder, Podcast-Grafiken). SVG skaliert auf jede Größe ohne Unschärfe und ist in Illustrator, Figma oder Inkscape editierbar, wenn du später Text überlagern oder animieren möchtest.

Was der Generator im Hintergrund tut

Die Pipeline besteht aus drei Web-APIs in Folge. Die Datei wird über FileReader.readAsArrayBuffer() in einen ArrayBuffer eingelesen. Dieser Buffer wird an AudioContext.decodeAudioData() übergeben, das die gesamte Datei in ein Float32Array aus PCM-Samples dekodiert (44,1 kHz Stereo für die meiste Musik, sample-genau). Der Decoder ist die native Audio-Engine des Browsers: FFmpeg-basiert in Chromium, mozMP3 in Firefox, CoreAudio in Safari. Das Dekodieren einer 4-minutigen MP3-Datei dauert auf einem modernen Laptop ~200 ms; längere Dateien skalieren etwa linear.

Der Downsampling-Schritt buckettiert die Samples in ungefähr 2.000 Fenster (eines pro Ausgabebalken) und zeichnet die maximale absolute Amplitude über alle Kanäle für jeden Eimer auf. Dies ist die "Spitzen-Wellenform"-Ansicht: derselbe Algorithmus, den SoundClouds Vorschau-Streifen verwendet, derselbe, den Audacity in seiner Spuransicht zeigt, und denselben, den die meisten DAWs für ihre Vorschau-Overlay-Caches verwenden. Der Zeichenschritt schreibt das Spitzen-Array auf einen <canvas> für PNG-Ausgabe (über canvas.toBlob) oder setzt einen SVG-<path>-String für SVG-Ausgabe zusammen.

Wann dieses Tool seinen Wert beweist

  • Erstellen eines Podcast-Episode-Titelbilds: Wellenform der ersten 30 Sekunden generieren, Titel in Figma überlagern und veröffentlichen.
  • Einbetten einer Wellenformgrafik in einen Blogbeitrag über ein Musiksample, einen Audio-Bug-Fix oder eine Sound-Design-Technik.
  • Erstellen eines Audiogramm-artigen Social-Media-Posts: SVG exportieren, Balken mit CSS-Keyframes animieren und du hast eine teilbare Grafik ohne Videoeditor.
  • Visuelle Musik-QA: laute Spitzen, Stille oder unerwarteten DC-Offset erkennen, bevor ein Mix an einen Mastering-Engineer gesendet wird.
  • Erstellen einer "Sample des Tages"-Grafik für einen Musikclub, eine Filmmusik-Analyse oder ein Audio-Engineering-Tutorial.
  • Stimmungstafel-Kunst für Album-Cover-Entwürfe: verschiedene Genres erzeugen visuell unterschiedliche Formen (Techno ist dicht und gleichmäßig, Klassik ist spärlich mit Spitzen, Ambient ist nahezu flach).

Häufige Fallstricke und Sonderfälle

  • Leise Dateien werden als flache Linie gerendert. Die Visualisierung skaliert auf den absoluten Spitzenwert; ein Lied mit einer lauten Transiente und sonst niedrigem Durchschnittspegel wirkt schwach. Zuerst durch einen Normalisierer oder Kompressor führen, oder einen lauteren Abschnitt der Datei wählen.
  • Lange Dateien sind während der Dekodierung speicherintensiv. Der Decoder hält das gesamte PCM im Speicher, bevor die Spitzen extrahiert werden; eine 1-stündige MP3-Datei benötigt ~600 MB Float32-Audio plus den Quell-Buffer. Mobile Browser können den Speicher vor dem Abschluss erschöpfen.
  • Manche MP3-Dateien haben variable Bitrate-Suchtabellen, die Browser-Decoder verwirren. Wenn die Dekodierung fehlschlägt, die Datei zuerst mit konstantem Bitrate über den Audio-Converter neu kodieren.
  • FLAC-Unterstützung hängt vom Browser ab. Chromium und Firefox dekodieren FLAC nativ; ältere Safari-Versionen geben einen Fehler zurück. Als Fallback erst in WAV konvertieren.
  • Stereokanäle werden in der Visualisierung zu Mono zusammengefasst. Jeder Eimer zeichnet die maximale absolute Amplitude über beide Kanäle auf, sodass eine hart-gepannte Stereo-Datei wie eine zentrierte Mono-Datei aussieht.
  • Das Ergebnis ist statisch, nicht in Echtzeit. Für springende Balken während der Wiedergabe benötigt man einen AnalyserNode in Web Audio und eine Animations-Schleife; dieses Tool erstellt ein einmaliges Spitzenbild der gesamten Datei.

Web Audio-Dekodierung und Spitzen-Wellenformen

Die Web Audio API ist eine W3C-Empfehlung, die 2021 nach Jahren als Working Draft finalisiert wurde. AudioContext.decodeAudioData() akzeptiert jeden Container, den der native Audio-Stack des Browsers unterstützt: MP3 (ISO/IEC 11172-3), WAV mit PCM- oder Float-Payloads, M4A mit AAC LC (ISO/IEC 14496-3), OGG mit Vorbis oder Opus sowie FLAC (RFC 9639) in Chromium und Firefox. Der Spitzen-Wellenform-Algorithmus stammt aus der ursprünglichen SoundCloud-Rendering-Pipeline (2014 als waveform-data-JS-Bibliothek veröffentlicht) und hat sich kaum verändert: Samples in Eimer aufteilen, maximale absolute Amplitude pro Eimer aufzeichnen, Balken oder kontinuierlichen gefüllten Pfad zeichnen.

Alternativen und wann sie besser sind

Audacity (kostenlos, plattformübergreifend) zeigt dieselbe Spitzendarstellung in seiner Spuransicht und lässt dich sie über das Bearbeiten-Menü als PNG oder SVG exportieren - die richtige Wahl, wenn du das Audio auch bearbeiten möchtest. Die npm-Bibliothek waveform-data bindet man in eine Web-App für einen benutzerdefinierten Audiogramm- oder In-Page-Visualizer ein. Das CLI-Tool audiowaveform erstellt JSON-Spitzendaten und PNG-Bilder im Stapelbetrieb, nützlich für Podcast-Feeds mit Tausenden von Episoden. Der In-Page-Generator gewinnt, wenn du eine Datei hast, schnell ein PNG oder SVG möchtest und keine Software installieren oder private Audiodaten an einen Remote-Service hochladen willst.

Häufig gestellte Fragen

Verlässt meine Audiodatei den Computer?

Nein. Die Datei wird in einem ArrayBuffer im Browser eingelesen, mit der Web Audio API dekodiert, auf Spitzen heruntergerechnet und auf einem Canvas gerendert. Kein Byte der Audiodaten wird über das Netzwerk gesendet. Du kannst dies mit den DevTools > Netzwerk verifizieren: keine ausgehenden Anfragen für die Audiodaten.

Was ist eine Spitzen-Wellenform?

Eine Spitzen-Wellenform ist eine kompakte visuelle Darstellung einer Audiodatei: Die ursprünglichen ~44.100 Samples pro Sekunde werden auf ein paar tausend "Eimer" zusammengefasst, und jeder Eimer zeichnet den lautesten Wert auf, der darin vorkommt. SoundCloud, Audacity und die meisten DAWs verwenden genau diesen Ansatz für ihre Vorschau-Streifen. Er ist schnell zu berechnen und visuell informativ, ohne jedes Sample zu speichern.

Warum ist mein Wellenformbild flach oder schwach?

Das Audio ist wahrscheinlich sehr leise im Verhältnis zu seinem Spitzenpegel (niedrige durchschnittliche Lautheit, hoher Dynamikbereich). Die Visualisierung skaliert auf den absoluten Spitzenwert, sodass der Rest winzig wirkt, wenn der lauteste Moment 0,1 beträgt. Für eine "vollere" Wellenform führe das Audio zuerst durch einen Normalisierer oder Kompressor, oder wähle einen lauteren Abschnitt der Datei.

Was ist der Unterschied zwischen PNG- und SVG-Ausgabe?

PNG ist ein Rasterbild - festes Pixel-Gitter, kompakt, am besten für Einbettungen fixer Größe (Blog-Titelbild, Podcast-Thumbnail). SVG ist Vektor - skaliert auf jede Größe ohne Unschärfe, kleiner für einfache Formen, editierbar in Illustrator und Figma. Für Social Media und YouTube-Thumbnails PNG wählen. Für ein Logo oder ein Poster SVG wählen.

Wie breit kann die Wellenform sein?

Bis zu 4096 px in diesem Tool, was für 4K-Thumbnails geeignet ist. Der Downsampling-Schritt verwendet unabhängig von der Breite ~2.000 Eimer, sodass eine größere Breite die Balken nur streckt. Für ultrabreite oder animierte Visualisierungen SVG exportieren und skalieren.

Warum dauert die Dekodierung manchmal lange?

Die Web Audio API dekodiert die gesamte Datei in unkomprimierte Samples im Speicher, bevor Spitzen extrahiert werden können. Für eine 1-stündige MP3-Datei sind das ungefähr 600 MB Float32-Audio. Browser tun dies auf einem Worker-Thread, aber es dauert trotzdem 5-15 Sekunden für lange Dateien. Kleinere MP3-Dateien werden in unter einer Sekunde dekodiert.

Kann ich Wellenformen in Echtzeit erstellen, während Audio abgespielt wird?

Dieses Tool erstellt ein statisches Spitzenbild der gesamten Datei. Für Echtzeit-Visualisierung (springende Balken während der Wiedergabe) benötigt man einen AnalyserNode in Web Audio und eine Animations-Schleife - das ist ein anderer Arbeitsablauf. Wir können bei ausreichender Nachfrage ein separates Tool dafür entwickeln.

Funktioniert es auch für Videodateien?

Nein - die Web Audio API dekodiert nur Audioformate. Um eine Wellenform aus einem Video zu erstellen, extrahiere zuerst das Audio mit dem Tool <a href="/tools/extract-audio-from-video/">Audio aus Video extrahieren</a> und lade die resultierende MP3- oder WAV-Datei hier hoch.

Mehr Video & Audio