Zavřít reklamu

Představte si klasickou situaci z cest: stojíte na rušném vlakovém nádraží v cizí zemi, místní kolem vás spěchají a vy nutně potřebujete zjistit, z jakého nástupiště vám jede přípoj. Než stihnete v batohu vylovit bezdrátová sluchátka, spárovat je s telefonem a spustit aplikaci, ochotný domorodec je dávno pryč. Tomu je teď konec.

Google do své mobilní aplikace Google Překladač (Google Translate) nasazuje horkou technologickou novinku postavenou na novém multimodálním modelu Gemini 3.5 Live Translate. Ta osvobozuje simultánní překlad z exkluzivity bezdrátových sluchátek a přináší takzvaný „listening mode“ (režim poslechu) přímo přes klasické telefonní sluchátko.

Jak funguje telefonní tlumočník bez sluchátek?

Funkce, která byla při svém zrodu pevně svázána výhradně s prémiovými sluchátky Pixel Buds a později rozšířena na běžná sluchátka, nyní funguje zcela autonomně. Na zařízeních s Androidem stačí telefon jednoduše zvednout a přiložit k uchu, jako byste s někým běžně telefonovali.Aplikace na pozadí poslouchá cizí řeč, bleskově ji zpracuje a do vašeho ucha skrze sluchátko telefonu generuje syntetizovaný hlas ve vašem rodném jazyce. Druhá strana přitom mluví přímo do mikrofonu telefonu. Celý proces je maximálně diskrétní, rychlý a přirozený.

Gemini 3.5 Live Translate: Konec zdlouhavého čekání na konec věty

Dosavadní systémy hlasového překladu fungovaly na principu turn-by-turn. To znamená, že aplikace musela počkat, až mluvčí kompletně dokončí svou větu, zanalyzovala kontext a teprve poté vygenerovala překlad. V reálné konverzaci to však působilo těžkopádně a docházelo k nepříjemným prostojům.Nový model Gemini 3.5 Live Translate mění pravidla hry díky kontinuálnímu streamování zvuku (audio-to-audio processing). Architektura modelu je optimalizována pro extrémně nízkou latenci (zpoždění). Systém dokáže plynule balancovat mezi okamžitým překladem a čekáním na dostatečný kontext, aby neutrpěla gramatická správnost. Výsledkem je téměř stoprocentně synchronní simultánní tlumočení.

Co je audio-to-audio model? Na rozdíl od starších systémů, které musely mluvené slovo nejprve přepsat na text, ten přeložit a následně znovu převést na syntetickou řeč, model Gemini 3.5 pracuje přímo se zvukovým signálem. Tím dramaticky klesá časová odezva.

Emoce a intonace zůstávají zachovány

Jednou z nejpúsobivějších vlastností nové aktualizace je schopnost replikovat lidský hlas. Vygenerovaný překlad už nezní jako robotický monolog bez špetky citu. Umělá inteligence od Googlu dokáže analyzovat a následně napodobit intonaci, tempo řeči i výšku hlasu původního mluvčího. Pokud tedy cizinec mluví vzrušeně nebo klade důraz na konkrétní slovo, překlad do vašeho ucha to věrně odrazí.Google navíc model masivně natrénoval na takzvanou vysokou hlukovou robustnost (high noise robustness). V praxi to znamená, že pokročilé algoritmy dokážou odfiltrovat chaos velkoměsta, hluk projíždějících aut, štěbetání lidí v kavárně nebo ozvěnu nádražních hal. Cíleně se zaměří pouze na hlas člověka, který stojí naproti vám.

Kdy a pro koho bude novinka dostupná?

Nová éra mobilního tlumočení podporuje více než 70 světových jazyků, mezi kterými nechybí ani čeština. Aktualizace se v těchto dnech začíná postupně uvolňovat pro globální trh.

  • Android: Získává plnou funkcionalitu včetně exkluzivního režimu poslechu přes sluchátko telefonu (phone-to-ear listening mode).
  • iOS (Apple): Aktualizace s modelem Gemini 3.5 dorazí rovněž, nicméně bezprostřední využití bez sluchátek může být zpočátku kvůli systémovým omezením Apple limitováno na hlasitý reproduktor.

Google tímto krokem opět dokazuje, že jeho investice do ekosystému umělé inteligence Gemini přinášejí reálné, praktické funkce pro každodenní život. Na příští dovolenou už tak můžete vyrazit s vědomím, že jazyková bariéra se smrštila na pouhé zvednutí telefonu k uchu.

Dnes nejčtenější

.