Ivan Nychyporuk

Kontext

Dieses Projekt wurde im Rahmen des KIAUMU-Programms entwickelt. Ziel: KI-Musiktools verstehen und anwenden, um den Klang, die Stimmung und den Produktionsstil eines Referenztracks nachzubilden — und einen originellen Track zu liefern, der von „Demo" zu Studio-Mastering-Qualität führt.

Verwendete Tools: Sonoteller.ai · Suno · FADR · ElevenLabs · Adobe Audition

Kernziele:

Reverse Engineering eines Referenztracks mittels KI-Analyse
Prompts über Genres, Stimmungen und Instrumentierungen hinweg entwickeln und testen
Mehrere Track-Varianten generieren, dann durch Stem-Separation, Mixing und Mastering verfeinern
Eine konsistente DJ-Erzählerstimme für alle Lieferungen erstellen

Phase 1 — Reverse Engineering des Referenztracks

Jeder Track hat eine Struktur, die dekodiert werden kann. Mit Sonoteller.ai wurde der Referenztrack entlang von sechs Dimensionen zerlegt:

Struktureller Zusammenbruch — Songsektionen, Übergänge, Arrangement
Stimmung + lyrische Themen — emotionaler Bogen, lyrischer Ton
Tempo und rhythmisches Gefühl — BPM, Groove, Swing
Energiekurve — Aufbau, Drop, Entladungspunkte
Instrumenten-Layers — Lead, Rhythmus, Textur, Bass, Percussion
Stimmcharakter — Timbre, Register, Stil

Sonoteller.ai Analyseergebnis

Der Analyse-Output lieferte eine strukturierte Aufschlüsselung, die direkt als Grundlage für das Suno-Prompt-System in Phase 2 diente.

Phase 2 — Prompt-Design

Es entstanden mehrere verschiedene Lieder — jedes mit bewusst variierenden Parametern:

Getestete Variablen pro Track:

Genres — Rock, Softrock, Trip-Hop, Blues, elektronisch inspirierte Musik
Stimmungen — dark, dreamy, melancholic, energetic, calm
Instrumentierung — verzerrte Gitarre, warmer Bass, sanfte Drums, Klavier, Ambient-Synthesizer, Percussion
Stimmtypen — dunkler männlicher Bariton, emotionaler männlicher Hauptdarsteller, sanfte weibliche Stimme, zarte weibliche Stimme
Tempo — 90, 120, 122 BPM getestet (Hinweis: Suno hält sich nicht immer strikt an die BPM-Vorgabe — Struktur- und Stil-Tags erwiesen sich als zuverlässiger)

Gemeinsame Prompt-Struktur in allen Tracks:

Tag-Typ	Elemente
Struktur	`[Intro]` `[Strophe]` `[Refrain]` `[Bridge]` `[Outro]`
Stimmung	dark, atmospheric, soft, warm, emotional, dreamy, nostalgic
Instrumente	verzerrte Gitarre, warmer Bass, sanfte Drums, Klavier, Ambient-Synthesizer
Stimmidentität	dunkler männlicher Bariton / sanfte weibliche Stimme / emotionaler männlicher Lead

Phase 3 — Musikgenerierung mit Suno

Gemeinsame Produktionsziele in allen generierten Tracks:

Höhere Produktionsqualität erzielen — das Gefühl eines „Demo-Tapes" vermeiden
Klarer Gesang, ausgewogene Instrumente, stimmige Struktur
Emotionale Übereinstimmung zwischen Text und Musik wahren

Wichtigste Beobachtungen aus der Generierung:

Spezifischere Eingabeaufforderungen führen zu konsistenteren Ergebnissen
Songtexte sollten kurz und ausdrucksstark sein
Instrumentenbezeichnungen beeinflussen Groove und Stil maßgeblich
Stimmungsbeschreibungen verändern Harmonie und Energie dramatisch

Phase 4 — Stem-Separation (FADR)

Die generierten Tracks wurden durch FADR für die Stem-Separation verarbeitet — Gesang, Drums, Bass und melodische Elemente wurden isoliert. Dies ermöglichte gezielte Anpassungen, ohne den Gesamtmix zu beeinflussen.

Phase 6 — Mixing und Mastering

Die einzelnen Stems wurden reassembliert und verarbeitet, um Studio-Mastering-Qualität zu erreichen. Das Mixing adressierte Balance, räumliche Platzierung und Dynamikumfang über alle Instrumenten-Layers hinweg.

Phase 7 — DJ Voice Setup

ElevenLabs wurde im gesamten Projekt eingesetzt, um eine konsistente DJ-Erzählerstimme zu erstellen für:

Radio-ähnliche Intros
Top-5-Ankündigungen
Outros und Einladungen zum Abstimmen
Storytelling-Übergänge zwischen den Songs

Die DJ-Stimme wurde zu einem festen Bestandteil der audiovisuellen Identität des Projekts.

Phase 8 — Bearbeitung in Adobe Audition

Finaler Zusammenbau und Bearbeitung in Adobe Audition — generierte Musik, separierte Stems und DJ-Voice-Over-Layer wurden zu einem kohärenten fertigen Projekt zusammengefügt.

Inspiration-Songs

Das Projekt wurde von fünf Referenztracks geleitet, ausgewählt für ihre unterschiedlichen Produktionsstile:

Depeche Mode — World In My Eyes
Massive Attack — Inertia Creeps
Foo Fighters — The Pretender
Bill Withers — Ain't No Sunshine
Red Hot Chili Peppers — Scar Tissue

Ergebnis

Ein wiederholbarer End-to-End-KI-Audioproduktions-Workflow: Referenzanalyse → Prompt-System → Generierung → Stem-Separation → Mixing & Mastering → Voice-Over → Finaler Schnitt.

Wichtigste Erkenntnisse:

Strukturierte Prompt-Tags ([Intro], [Refrain] usw.) verbesserten die musikalische Klarheit durchgehend
BPM-Werte sind eine grobe Orientierung in Suno — Stil- und Stimmungs-Tags sind zuverlässigere Steuerungsmittel
Die Stem-Separation mit FADR ermöglicht Post-Generierungs-Editing, das reiner KI-Output nicht bieten kann
Eine konsistente Stimmpersona (DJ-Erzähler) steigert die audiovisuelle Identität eines Projekts erheblich

KI Audio- und Musikproduktion — Reverse Engineering eines Tracks