==> ENGLISH
The research and countless trys and fails took me literally months. I’ve been working on this since May 2024. Back then it was technically already possible but would have cost several 100 Euros per video. Meanwhile competition has gained track and it is way more affordably but still very much limited in processing time (about 5 minutes / month). In total I calculate about 200+ hours of figuring out the tools, workflow, etc.
Technically it is a combination of manual editing – audio and video – and 3 different AI systems. The tough job was to figure out which AI can do the job with the necessary quality (and reasonable cost), in which sequence and with which parameters and what kind of manual editing it needs before each and after each. At the end, like always, putting it together.
For the single video only - the Aptera October update - the total work time was around 6 hours and the total processing time (including queuing, processing, etc.) was about 30 hours.
Some aspects:
- Separating / isolating voice from background music
- Audio Leveling for optimized input to AI to translate and re-generate
- Voice to text in English – not a problem as many tools do that quite well
- Translation and audio generation – text to speech is quite common nowadays as well but this would not help as it would not be the voice of Steve
- Lip syncing according to target language (German) – that means complete re-generation of video with different face expressions
- Pitch alignment of voice – cannot be too low and definitely not too high as Steve would sound like Mikey Mouse 😉
- Spoken language melody of target language (German) – if the melody of the German language would not be met, e.g. a question could sound like an imperative
- Emotions of speaker in target language (German) – different languages in different cultural areas express emotions differently, sometimes even in the same language (think Spanish in Spain and Spanish in Argentina)
- Adjustment of audio AND video length in target language (German) – different languages use different amounts of words that in turn need different amount of time to be spoken – which in turn means while re-generating video with new audio in target language (German), new video elements need to be “invented” which match the longer / shorter audio
So it was and is a complex process that takes time.
Fun fact: when I had put it all together in Davinci Resolve Studio, the export of the final video took exactly 9 seconds. Seconds!
==> DEUTSCH
Die Recherche und die unzähligen Versuche und Fehlschläge haben mich buchstäblich Monate gekostet. Ich habe seit Mai 2024 daran gearbeitet. Damals war es technisch schon möglich, aber es hätte mehrere 100 Euro pro Video gekostet. Inzwischen hat die Konkurrenz aufgeholt und es ist deutlich erschwinglicher, aber immer noch sehr begrenzt in der Bearbeitungszeit (ca. 5 Minuten / Monat). Insgesamt rechne ich mit ca. 200+ Stunden, um die Tools, den Workflow, etc. zu entwickeln.
Technisch gesehen ist es eine Kombination aus manueller Bearbeitung - Audio und Video - und 3 verschiedenen KI-Systemen. Die Schwierigkeit bestand darin, herauszufinden, welches KI-System die Aufgabe in der erforderlichen Qualität (und zu vertretbaren Kosten), in welcher Reihenfolge und mit welchen Parametern erledigen kann und welche Art von manueller Bearbeitung vor und nach jedem System erforderlich ist. Am Ende, wie immer, das Zusammensetzen.
Nur für das eine Video - das Aptera-Oktober-Update - betrug die Gesamtarbeitszeit etwa 6 Stunden und die Gesamtbearbeitungszeit (einschließlich Warteschlangenbildung, Bearbeitung usw.) etwa 30 Stunden.
Einige Aspekte:
- Trennung / Isolierung der Stimme von der Hintergrundmusik
- Audio-Leveling für optimierten Input an die KI zur Übersetzung und Neugenerierung
- Sprache in Text auf Englisch - kein Problem, da viele Tools dies sehr gut können
- Übersetzung und Audiogenerierung - Text in Sprache ist heutzutage ebenfalls üblich, aber das würde nicht helfen, da es sich nicht um die Stimme von Steve handeln würde
- Lippensynchronisation entsprechend der Zielsprache (Deutsch) - das bedeutet eine komplette Neuerstellung des Videos mit verschiedenen Gesichtsausdrücken
- Tonhöhenanpassung der Stimme - darf nicht zu tief und schon gar nicht zu hoch sein, sonst klingt Steve wie Mikey Mouse 😉
- Gesprochene Sprachmelodie der Zielsprache (Deutsch) - wenn die Melodie der deutschen Sprache nicht getroffen würde, könnte z.B. eine Frage wie ein Imperativ klingen
- Emotionen des Sprechers in der Zielsprache (Deutsch) - verschiedene Sprachen in verschiedenen Kulturkreisen drücken Emotionen unterschiedlich aus, manchmal sogar in derselben Sprache (man denke an Spanisch in Spanien und Spanisch in Argentinien)
- Anpassung der Audio- UND Videolänge in der Zielsprache (Deutsch) - verschiedene Sprachen verwenden unterschiedlich viele Wörter, die wiederum unterschiedlich lange gesprochen werden müssen - was wiederum bedeutet, dass bei der Neuerstellung des Videos mit neuem Audio in der Zielsprache (Deutsch) neue Videoelemente „erfunden“ werden müssen, die zu dem längeren/kürzeren Audio passen
Es war und ist also ein komplexer Prozess, der Zeit braucht.
Spaßfakt: Als ich alles in Davinci Resolve Studio zusammengefügt hatte, dauerte der Export des fertigen Videos genau 9 Sekunden. Sekunden!