Ivan NychyporukAI Media / Content Creator / VFX Digital Compositor / AI Integration Consultant

Project

KI Audio- und Musikproduktion — Reverse Engineering eines Tracks

2026audio / music / workflow

Eine vollständige KI-Audioproduktions-Pipeline — vom Reverse Engineering eines Referenztracks mit Sonoteller.ai über Prompt-Design und Generierung in Suno, Stem-Separation mit FADR, Mixing und Mastering, DJ-Voice-Over in ElevenLabs bis zum finalen Schnitt in Adobe Audition.

Kontext

Dieses Projekt wurde im Rahmen des KIAUMU-Programms entwickelt. Ziel: KI-Musiktools verstehen und anwenden, um den Klang, die Stimmung und den Produktionsstil eines Referenztracks nachzubilden — und einen originellen Track zu liefern, der von „Demo" zu Studio-Mastering-Qualität führt.

Verwendete Tools: Sonoteller.ai · Suno · FADR · ElevenLabs · Adobe Audition

Kernziele:

  • Reverse Engineering eines Referenztracks mittels KI-Analyse
  • Prompts über Genres, Stimmungen und Instrumentierungen hinweg entwickeln und testen
  • Mehrere Track-Varianten generieren, dann durch Stem-Separation, Mixing und Mastering verfeinern
  • Eine konsistente DJ-Erzählerstimme für alle Lieferungen erstellen

Phase 1 — Reverse Engineering des Referenztracks

Sonoteller.ai Analysetool

Jeder Track hat eine Struktur, die dekodiert werden kann. Mit Sonoteller.ai wurde der Referenztrack entlang von sechs Dimensionen zerlegt:

  • Struktureller Zusammenbruch — Songsektionen, Übergänge, Arrangement
  • Stimmung + lyrische Themen — emotionaler Bogen, lyrischer Ton
  • Tempo und rhythmisches Gefühl — BPM, Groove, Swing
  • Energiekurve — Aufbau, Drop, Entladungspunkte
  • Instrumenten-Layers — Lead, Rhythmus, Textur, Bass, Percussion
  • Stimmcharakter — Timbre, Register, Stil

Sonoteller.ai Analyseergebnis

Sonoteller.ai Analyseergebnis

Der Analyse-Output lieferte eine strukturierte Aufschlüsselung, die direkt als Grundlage für das Suno-Prompt-System in Phase 2 diente.

Phase 2 — Prompt-Design

Es entstanden mehrere verschiedene Lieder — jedes mit bewusst variierenden Parametern:

Getestete Variablen pro Track:

  • Genres — Rock, Softrock, Trip-Hop, Blues, elektronisch inspirierte Musik
  • Stimmungen — dark, dreamy, melancholic, energetic, calm
  • Instrumentierung — verzerrte Gitarre, warmer Bass, sanfte Drums, Klavier, Ambient-Synthesizer, Percussion
  • Stimmtypen — dunkler männlicher Bariton, emotionaler männlicher Hauptdarsteller, sanfte weibliche Stimme, zarte weibliche Stimme
  • Tempo — 90, 120, 122 BPM getestet (Hinweis: Suno hält sich nicht immer strikt an die BPM-Vorgabe — Struktur- und Stil-Tags erwiesen sich als zuverlässiger)

Gemeinsame Prompt-Struktur in allen Tracks:

Tag-TypElemente
Struktur[Intro] [Strophe] [Refrain] [Bridge] [Outro]
Stimmungdark, atmospheric, soft, warm, emotional, dreamy, nostalgic
Instrumenteverzerrte Gitarre, warmer Bass, sanfte Drums, Klavier, Ambient-Synthesizer
Stimmidentitätdunkler männlicher Bariton / sanfte weibliche Stimme / emotionaler männlicher Lead

Phase 3 — Musikgenerierung mit Suno

Gemeinsame Produktionsziele in allen generierten Tracks:

  • Höhere Produktionsqualität erzielen — das Gefühl eines „Demo-Tapes" vermeiden
  • Klarer Gesang, ausgewogene Instrumente, stimmige Struktur
  • Emotionale Übereinstimmung zwischen Text und Musik wahren

Wichtigste Beobachtungen aus der Generierung:

  • Spezifischere Eingabeaufforderungen führen zu konsistenteren Ergebnissen
  • Songtexte sollten kurz und ausdrucksstark sein
  • Instrumentenbezeichnungen beeinflussen Groove und Stil maßgeblich
  • Stimmungsbeschreibungen verändern Harmonie und Energie dramatisch

Phase 4 — Stem-Separation (FADR)

FADR Stem-Separation

Die generierten Tracks wurden durch FADR für die Stem-Separation verarbeitet — Gesang, Drums, Bass und melodische Elemente wurden isoliert. Dies ermöglichte gezielte Anpassungen, ohne den Gesamtmix zu beeinflussen.

Phase 6 — Mixing und Mastering

Mixing- und Mastering-Session

Die einzelnen Stems wurden reassembliert und verarbeitet, um Studio-Mastering-Qualität zu erreichen. Das Mixing adressierte Balance, räumliche Platzierung und Dynamikumfang über alle Instrumenten-Layers hinweg.

Phase 7 — DJ Voice Setup

ElevenLabs DJ Voice Setup

ElevenLabs wurde im gesamten Projekt eingesetzt, um eine konsistente DJ-Erzählerstimme zu erstellen für:

  • Radio-ähnliche Intros
  • Top-5-Ankündigungen
  • Outros und Einladungen zum Abstimmen
  • Storytelling-Übergänge zwischen den Songs

Die DJ-Stimme wurde zu einem festen Bestandteil der audiovisuellen Identität des Projekts.

Phase 8 — Bearbeitung in Adobe Audition

Adobe Audition Bearbeitungs-Session

Finaler Zusammenbau und Bearbeitung in Adobe Audition — generierte Musik, separierte Stems und DJ-Voice-Over-Layer wurden zu einem kohärenten fertigen Projekt zusammengefügt.

Inspiration-Songs

Das Projekt wurde von fünf Referenztracks geleitet, ausgewählt für ihre unterschiedlichen Produktionsstile:

  • Depeche Mode — World In My Eyes
  • Massive Attack — Inertia Creeps
  • Foo Fighters — The Pretender
  • Bill Withers — Ain't No Sunshine
  • Red Hot Chili Peppers — Scar Tissue

Ergebnis

Ein wiederholbarer End-to-End-KI-Audioproduktions-Workflow: Referenzanalyse → Prompt-System → Generierung → Stem-Separation → Mixing & Mastering → Voice-Over → Finaler Schnitt.

Wichtigste Erkenntnisse:

  • Strukturierte Prompt-Tags ([Intro], [Refrain] usw.) verbesserten die musikalische Klarheit durchgehend
  • BPM-Werte sind eine grobe Orientierung in Suno — Stil- und Stimmungs-Tags sind zuverlässigere Steuerungsmittel
  • Die Stem-Separation mit FADR ermöglicht Post-Generierungs-Editing, das reiner KI-Output nicht bieten kann
  • Eine konsistente Stimmpersona (DJ-Erzähler) steigert die audiovisuelle Identität eines Projekts erheblich