Technologie

„Automated Dub“ od Amazonu používá AI k kopírování videí do cizích jazyků

„Automated Dub“ od Amazonu používá AI k kopírování videí do cizích jazyků

Díky popularitě tolika streamovacích platforem se obsah stává velmi rozmanitým a odlišným. Stále více lidí sleduje cizojazyčné pořady jako „Money Heist“ a „Dark“, protože jsou to dobré pořady a jsou dostupné po celém světě. Někteří z nás však rádi sledují naše pořady v jazyce, kterému rozumíme. Někdy titulky nestačí. To znamená, že dabování zahraničních pořadů do jiného jazyka může být pro produkční společnosti časově náročné a nákladné. To je hlavní důvod, proč se mnoho pořadů nenechá dabovat v cizích jazycích. Vědci z Amazonu mohou mít tento problém řešení.

V příspěvku publikovaném na předtiskovém serveru Arxiv.org výzkumníci společnosti Amazon teoretizovali a testovali novou technologii „řeč na řeč“. Využívá to AI převádí původní řeč na přeloženou a vylepšuje přeloženou řeč tak, aby zněla lidštěji. Je to jen první krok k vývoji jednoduššího a mnohem levnějšího způsobu kopírování pořadů a filmů.

Jak to funguje

Tato technologie „řeč na řeč“ je mnohem složitější, než se zdá. Překlad původní řeči do cizí řeči pomocí počítačů je hektický úkol. Není to překlad jazyka do jiného pouze ze zvukového zdroje, ale zahrnuje několik kroků.
Proces automatizovaného kopírování v zásadě zahrnuje 3 kroky. Nejprve je třeba převést původní řeč v textovém formátu. Druhý krok zahrnuje překlad textu do požadovaného jazyka. Nakonec přeložený text vygeneruje novou řeč.

Nyní vznikají komplikace při vývoji nové řeči z přeloženého textu na řeč. Přeložená řeč by měla odpovídat rychlosti a emocím původní řeči. Mělo by také přenášet zvuky pozadí a eliminovat dozvuk.

Aby tento komplikovaný proces fungoval, vědci Amazonu to potvrdili jejich technologie řeči na řeč byla proškolena na více než 150 milionech anglicko-italských párů fráze k určení rychlosti segmentu řeči přeložené řeči tak, aby odpovídala rychlosti původní řeči. Tento krok zajišťuje, aby se pauzy a přestávky v přeložené řeči shodovaly s původní řečí.

Model ve fázi převodu textu na řeč trénoval 47 hodin nahrávek řeči. Tento model generuje kontextovou sekvenci z textu, který je přiváděn do předem vyškoleného vokodéru, který kryje sekvenci do křivky řeči.

Tato technologie je také schopna extrahovat zvuky pozadí z původního zvuku a vložit jej do přeloženého zvuku, aby se více podobal původnímu zvuku. Nakonec se pro přidání dozvuku původního zvuku k přeloženému použije samostatný krok nazvaný krok zpětného dozvukování.

Bude to užitečné??

Tento proces je jistě komplikovaný, ale vědci napsali, že jejich budoucí práce budou věnována vylepšením automatického kopírování. To může eliminovat potřebu herců hlasu dabovat show nebo film do jiného jazyka. Kopírování obsahu do požadovaného jazyka bude méně časově náročné a mnohem levnější. A ano, bude přínosem pro produkční domy, aby divákům poskytly více přehlídek a filmů tím, že seznam budou mnohem rozmanitější.

Cesta z iPhone na iPhone 4s
Tento článek je poctou legendárnímu ikonickému inovátorovi, který navždy změnil náš život s některými z bezchybných a futuristických gadgetů společnos...
Jak Seznam 70 klávesových zkratek Windows 8
Seznam 70 klávesových zkratek Windows 8
Používání systému Windows 8 je určitě jiné než jeho předchůdci, čím více ho používáte, tím více si na něj zvyknete. Ale většinou se lidé mísí mezi uži...
Jak Jak nainstalovat iOS 10 Public Beta na vaše iOS zařízení
Jak nainstalovat iOS 10 Public Beta na vaše iOS zařízení
Znovu nastal ten čas roku ... Když Apple na začátku tohoto roku spustil iOS Developer Beta 1, vyzkoušeli jsme to (a napsali jsme článek o jeho instala...