„Automated Dub“ od Amazonu používá AI k kopírování videí do cizích jazyků

Díky popularitě tolika streamovacích platforem se obsah stává velmi rozmanitým a odlišným. Stále více lidí sleduje cizojazyčné pořady jako „Money Heist“ a „Dark“, protože jsou to dobré pořady a jsou dostupné po celém světě. Někteří z nás však rádi sledují naše pořady v jazyce, kterému rozumíme. Někdy titulky nestačí. To znamená, že dabování zahraničních pořadů do jiného jazyka může být pro produkční společnosti časově náročné a nákladné. To je hlavní důvod, proč se mnoho pořadů nenechá dabovat v cizích jazycích. Vědci z Amazonu mohou mít tento problém řešení.

V příspěvku publikovaném na předtiskovém serveru Arxiv.org výzkumníci společnosti Amazon teoretizovali a testovali novou technologii „řeč na řeč“. Využívá to AI převádí původní řeč na přeloženou a vylepšuje přeloženou řeč tak, aby zněla lidštěji. Je to jen první krok k vývoji jednoduššího a mnohem levnějšího způsobu kopírování pořadů a filmů.

Jak to funguje

Tato technologie „řeč na řeč“ je mnohem složitější, než se zdá. Překlad původní řeči do cizí řeči pomocí počítačů je hektický úkol. Není to překlad jazyka do jiného pouze ze zvukového zdroje, ale zahrnuje několik kroků.
Proces automatizovaného kopírování v zásadě zahrnuje 3 kroky. Nejprve je třeba převést původní řeč v textovém formátu. Druhý krok zahrnuje překlad textu do požadovaného jazyka. Nakonec přeložený text vygeneruje novou řeč.

Nyní vznikají komplikace při vývoji nové řeči z přeloženého textu na řeč. Přeložená řeč by měla odpovídat rychlosti a emocím původní řeči. Mělo by také přenášet zvuky pozadí a eliminovat dozvuk.

Aby tento komplikovaný proces fungoval, vědci Amazonu to potvrdili jejich technologie řeči na řeč byla proškolena na více než 150 milionech anglicko-italských párů fráze k určení rychlosti segmentu řeči přeložené řeči tak, aby odpovídala rychlosti původní řeči. Tento krok zajišťuje, aby se pauzy a přestávky v přeložené řeči shodovaly s původní řečí.

Model ve fázi převodu textu na řeč trénoval 47 hodin nahrávek řeči. Tento model generuje kontextovou sekvenci z textu, který je přiváděn do předem vyškoleného vokodéru, který kryje sekvenci do křivky řeči.

Tato technologie je také schopna extrahovat zvuky pozadí z původního zvuku a vložit jej do přeloženého zvuku, aby se více podobal původnímu zvuku. Nakonec se pro přidání dozvuku původního zvuku k přeloženému použije samostatný krok nazvaný krok zpětného dozvukování.

Bude to užitečné??

Tento proces je jistě komplikovaný, ale vědci napsali, že jejich budoucí práce budou věnována vylepšením automatického kopírování. To může eliminovat potřebu herců hlasu dabovat show nebo film do jiného jazyka. Kopírování obsahu do požadovaného jazyka bude méně časově náročné a mnohem levnější. A ano, bude přínosem pro produkční domy, aby divákům poskytly více přehlídek a filmů tím, že seznam budou mnohem rozmanitější.