Vidby: „Jeder wird jede Sprache sprechen können“

von Christian Beck

Herr von Rubinberg, wie viele Sprachen sprechen Sie?
Deutsch, Englisch und Russisch. Aber dank Vidby spreche ich jetzt auch Spanisch, Italienisch, Französisch, Portugiesisch, Chinesisch und Japanisch (lacht).

Sein Startup Vidby hat ein Tool entwickelt, das Videos nahezu in Echtzeit in mehr als 70 Sprachen übersetzt und dem Original eine künstliche Stimme überlagert. Wie sind Sie auf diese Idee gekommen?
Wir haben mittlerweile über zehn Jahre Erfahrung im Bereich Sprachtechnologie und Künstliche Intelligenz (KI). 2013 waren wir weltweit die Ersten, die einen Messenger mit synchronem Live-Video-Übersetzer gebaut haben. Wir haben in den letzten zehn Jahren viel geforscht und entwickelt – und jetzt können wir unser gesamtes Know-how in Vidby einbringen.

Einer seiner Kunden ist der Präsident der Ukraine, Wolodymyr Selenskyj. Als er in die Kamera spricht, wird Vidby aktiv. Wie kam es zu dieser Zusammenarbeit?
Als Schweizer Technologieunternehmen haben wir es hier schwer, gute und ansprechbare Mitarbeitende zu finden. Deshalb kommen viele unserer Programmierer aus der Ukraine. Viele von ihnen sind Patrioten und wollten ihrem Vaterland in dieser sehr schwierigen Situation, in der sich die Ukraine befindet, helfen und sie unterstützen. Also boten wir Vidby den ukrainischen Botschaften in Europa an und so kamen wir zum ukrainischen Außenministerium. Sie fanden Vidby und die Technologie, auf der Vidby basiert, sehr interessant, wollten aber verständlicherweise 100 % garantierte Übersetzungsqualität. Du warst skeptisch. Also haben wir sie davon überzeugt, ein Testvideo hochzuladen. Sie waren vom Ergebnis angenehm überrascht – und fanden im gesamten Video nur einen halben Fehler.

Werfen wir einen kurzen Blick auf die Technik: Selenskyj spricht. Was passiert gerade im Hintergrund?
Das Außenministerium der Ukraine registriert sich – wie jeder Kunde – bei uns auf der Website. Anschließend lädt es das zu übersetzende Video und ruft die von Ihnen konfigurierten Voreinstellungen ab. Das Video wird dann innerhalb von 24 Stunden in 30 Sprachen in 99-100% Qualität übersetzt und kann im Login-Bereich heruntergeladen werden.

«Vidby wird mit jedem Update besser»

Künstliche Intelligenz hilft beim Übersetzen. Lernt KI auch?
Wir machen jeden Dienstag ein Update. Mit jedem Update wird Vidby besser.

Wie viel Rechenleistung wird für die Übersetzung benötigt?
Da sich die gesamte Infrastruktur in der Cloud befindet, können wir nahezu unbegrenzte Möglichkeiten nutzen.

Angenommen, ich möchte eine fünfminütige Rede in 50 Sprachen übersetzen. Wie lange muss ich warten?
Wenn Sie die Option „Vollautomatisch“ wählen, ist das Video innerhalb von fünf Minuten übersetzt und in 50 Sprachen verfügbar. Wenn Sie die Option „99% Übersetzungsqualität“ wählen, wird Ihr Video am nächsten Tag in 50 Sprachen übersetzt.

Wie lange würde es auf herkömmlichem Weg dauern, also wenn Übersetzer übersetzen müssten?
Wochen, wenn nicht Monate. Versuchen Sie, 50 Sprecher zu finden, damit sie dem Video Musik in ihrer eigenen Sprache hinzufügen können. Übersetzungsbüros müssen alle Texte auf herkömmliche Weise übersetzen und vorab prüfen. Abgesehen davon, dass es viel Zeit in Anspruch nehmen würde, wäre es auch mit immensen Kosten verbunden.

Sie setzen also Arbeitsplätze aufs Spiel…
Nein, wir erstellen neue. Ähnlich wie damals bei digitalen Buchhaltungssystemen. Alle haben prophezeit, dass es deswegen keine Buchhalter mehr geben wird. Was sehen wir heute? Es gibt mehr Zähler, als wir möchten.

«Was bald funktionieren wird, ist die schweizerdeutsche Synchronisation»

Kann Vidby auch Schweizerdeutsch in andere Sprachen übersetzen?
Leider noch nicht, aber wir arbeiten daran. Jeder Kanton hat sozusagen seine eigene Sprache. Übersetzen können wir sie schon, aber die Fehlerquote ist noch sehr hoch. Was aber bald funktionieren wird, ist die schweizerdeutsche Synchronisation.

Und in welchem ​​Dialekt?
Im Zürcher Dialekt.

Wo liegen die technischen Grenzen?
Als wir den weltweit ersten Messenger mit Echtzeit-Übersetzung bauten, sagten alle, dass es so nie funktionieren würde. Die Entwicklung wird meines Erachtens ähnlich verlaufen wie bei Schachcomputern. Bei den ersten Schachcomputern sagten alle, dass Computer niemals besser Schach spielen könnten als Menschen. Heute wissen wir, dass kein Schachweltmeister gegen den Computer eine Chance hat. Ähnlich wird es bei Sprachtechnologien sein. In naher Zukunft wird jeder mit Hilfe künstlicher Intelligenz alle Sprachen der Welt sprechen können. Um auf Ihre Frage zurückzukommen: Technische Grenzen kann ich mir nicht vorstellen. Hätten wir damals die Grenzen unserer Vorstellungskraft eingehalten, hätten wir aufgehört und nicht die Fortschritte gemacht, die wir heute machen.

Greift Vidby ein, wenn ich etwas sage, was ich nicht sagen sollte?
Vidby ist ein Dienst, den jeder auf der Welt nutzen kann. Sie können es mit Google Translate vergleichen. Wie Google Translate greift Vidby nicht in die Online-Übersetzung ein. Wenn jemand ein Video von uns vollautomatisch übersetzen lässt, sehen wir nicht, welches Video übersetzt wurde.

Die Stimme des künstlich erzeugten Sprechers klingt immer noch nicht sehr menschlich. Wann ist diese nicht mehr von einer realen Person zu unterscheiden?
Wir haben bereits Stimmen, die nicht mehr von einem Menschen zu unterscheiden sind. Das Einzige, was derzeit sehr eingeschränkt funktioniert, sind Emotionen. Es gibt auch Stimmen für Kinder und ältere Menschen.

Aber planen Sie nicht, Vidby irgendwann die Originalstimme nachahmen zu lassen? Das kann gefährlich werden, wenn die Technologie in die falschen Hände gerät.
Diesen Service werden wir bereits im nächsten Jahr anbieten. Wenn Sie die Stimme eines bekannten Schauspielers verwenden möchten, ist die Technologie mittlerweile so gut, dass sie diese sehr gut imitieren kann.

Und haben Sie wirklich keine Bedenken, dass Ihr Service missbraucht werden könnte?
Nein, da habe ich keine Bedenken. Bei Vidby wird dieser Service nur auf Anfrage verfügbar sein, und wir werden sehr genau prüfen, wer ihn anfordert und wofür er dient. Zudem ist dieser Service noch sehr aufwendig und teuer.

«Mit Hilfe von Vidby können nun auch Werbeagenturen ihren Kunden einen grossen Mehrwert bieten»

Zurück zu Selenskyj. Er wird wahrscheinlich nicht Ihr einziger Kunde sein. Wer vertraut bereits Ihrem Know-how?
Nach nur einem Jahr haben wir bereits Tausende von Kunden, von denen viele zu Stammkunden geworden sind. Der Dienst ist für Industrieunternehmen interessant – beispielsweise für Mitarbeiterschulungsvideos oder E-Learning-Plattformen. Und auch Werbeagenturen können ihren Kunden nun mithilfe von Vidby einen großen Mehrwert bieten. Neben Zelensky und dem Außenministerium der Ukraine ist unser prominentester Kunde die Harvard University. Sie haben uns zunächst mit dem Argument abgetan, dass sie mit den besten Übersetzungsagenturen der Welt zusammenarbeiten. Aber sie fanden heraus, dass die Fehlerquote des Übersetzungsbüros viel höher ist als die von Vidby. Ein schönes Kompliment.

Sie haben gerade eine Finanzierungsrunde für Vidby abgeschlossen. Was sind Ihre nächsten Ziele?
Ja, wir waren überrascht, wie viele Investoren von unserem Projekt begeistert waren. Wir sind auch der Aktionariat AG sehr dankbar für die Tokenisierungslösung. Mit dieser Lösung sind Sie praktisch ein börsennotiertes Unternehmen, ohne an der Börse notiert zu sein. Das hat bei uns sehr gut funktioniert. Unser nächster Schritt als Unternehmen ist die Lippenbewegungsanimation. Wir haben hier bereits einen Prototypen gebaut, der die Lippenbewegungen animieren kann, sodass man den Unterschied zum Original nicht mehr merkt. Jede Sprache hat eine andere Aussprachelänge. Auf Englisch kann man den gleichen Satz viel schneller beenden als auf Deutsch – und im Bild wäre einem der Mund zu. Mit unserer Technologie würde sich der Mund in der übersetzten Fremdsprache weiterbewegen, ohne dass jemand merkt, dass er animiert ist. Mit Weiterentwicklungen wie der Lippenbewegungsanimation werden wir unsere Wettbewerbsvorteile weiter ausbauen und den Innovationsstandort Schweiz weiter stärken.

Also sozusagen ein Deepfake?
In unserem Fall heißt die Technologie „Lip Sync“. Wir sind auch in der Lage, Texte in einem bereits gefilmten Video, zum Beispiel chinesische Straßenschilder, durch eine für uns lesbare Schrift zu ersetzen. Beide Services werden wir ab dem kommenden Sommer anbieten können.

Leave a Comment