Vše, co potřebujete vědět o Xiaomi AI: autonomní agenti v telefonech, klonování hlasu a mnoho dalšího

Ostatní

Před 5 hod.

Xiaomi už dávno není jen výrobcem dostupných smartphonů a koloběžek. Během uplynulého roku a půl čínský dravě vybudoval komplexní AI ekosystém, který svými parametry i efektivitou šokuje Silicon Valley. Zde je detailní pohled na rodinu modelů MiMo, revoluční klonování hlasu OmniVoice a autonomního agenta miclaw.

Zatímco se globální pozornost upírala k OpenAI, Anthropicu nebo Googlu, Xiaomi v tichosti provedlo jednu z nejagresivnějších technologických transformací dekády. Společnost, která má v kapse miliardové rozpočty z prodeje spotřební elektroniky a elektromobilů, vyvinula kompletní vertikálně integrovaný AI stack – od open-source LLM modelů přes multimodální systémy až po agenty, kteří dokážou ovládat telefon místo vás.

MiMo-7B porazilo o1-mini

Ostrý start AI ofenzívy Xiaomi nastal v dubnu 2025 s vydáním modelu MiMo-7B (Xiaomi Model). Místo generování běžných textů se inženýři pod vedením Luo Fuliho (který přišel z elitního týmu DeepSeek) zaměřili na matematické uvažování a generování kódu.

Výsledek? Přestože měl model pouhých 7 miliard parametrů, v matematickém benchmarku MATH-500 dosáhla jeho verze trénovaná pomocí zpětnovazebního učení (Reinforcement Learning) úspěšnosti 95,8 %. V soutěžích AIME 2024 a 2025 tak MiMo-7B překonalo i specializované modely jako OpenAI o1-mini nebo Qwen-32B-Preview. Model byl natrénován na 25 triliónech tokenů (včetně 200 miliard specializovaných reasoning tokenů) a Xiaomi jej uvolnilo pod svobodnou licencí MIT na platformě Hugging Face.

Architektura MoE a bilionové vlajkové lodě

Tempo inovací se v dalších měsících ještě zrychlilo. Vývojová linie modelů MiMo ukazuje brutální technologický pokrok:

MiMo-V2-Flash (Prosinec 2025): Model s celkovým počtem 309 miliard parametrů postavený na architektuře Mixture-of-Experts (MoE). V jakýkoliv okamžik je aktivních pouze 15 miliard parametrů, což extrémně snižuje hardwarovou náročnost. Využívá techniku Multi-Token Prediction (MTP) pro paralelní generování a verifikaci tokenů. Dosahuje rychlosti 150 tokenů za sekundu při pouhých 2,5 % nákladů na inferenci oproti modelu Claude. V komerčním nasazení stojí API pouhých 0,1 USD za milion input tokenů.
MiMo-V2-Pro (Březen 2026): Vlajková loď s 1 bilionem parametrů (42 miliard aktivních na jeden průchod) a masivním kontextovým oknem 1 milion tokenů. Model se poprvé objevil anonymně na platformě OpenRouter pod názvem „Hunter Alpha“, kde okamžitě ovládl žebříčky a zpracoval 1,5 bilionu tokenů, než se k němu Xiaomi oficiálně přihlásilo. Je navržen primárně pro komplexní, vícekrokové „agentí“ úlohy. Společně s ním debutovaly modely MiMo-V2-Omni (multimodální zpracování textu, obrazu a videa) a MiMo-V2-TTS.
MiMo-V2.5 a V2.5-Pro (Duben 2026): Sjednocení architektury do nativního multimodálního modelu s 1,02 bilionu parametrů. Verze Pro se stala nejlepším open-source modelem pro autonomní agenty v benchmarku Artificial Analysis. Běžná verze MiMo-V2.5 dosahuje rychlosti až 150 tokenů za sekundu. Xiaomi navíc zrušilo příplatky za plné využití milionového kontextového okna.
MiMo Code (Červen 2026): Autonomní programovací agent s persistentní paměťovou architekturou, která na rozdíl od běžných asistentů neztrácí kontext po zaplnění kontextového okna a pamatuje si architektonická rozhodnutí napříč celým projektem.

Xiaomi Omnivoice voice cloning model open source

Vstoupit do galerie

Zrak a sluch pro chytrou domácnost i elektromobily

AI od Xiaomi nekončí u textu a kódu. Propojení s fyzickým světem zajišťují specializované smyslové modely:

Vizuální oblast pokrývá MiMo-VL a jeho domácí varianta Miloco-7B. Tento model je natrénován pro hluboké porozumění domácímu prostředí. Dokáže v reálném čase rozpoznávat gesta (palec nahoru, OK, mír, otevřená dlaň) a identifikovat lidské aktivity jako sledování TV, cvičení nebo čtení, což posouvá automatizaci chytré domácnosti na novou úroveň.

Pro audio segment Xiaomi vyvinulo MiDashengLM-7B (srpen 2025). Na rozdíl od běžných modelů zaměřených pouze na přepis řeči využívá přístup „general audio caption“. Byl natrénován na 38 662 hodinách zvuku a rozumí nejen slovům, ale i hudbě, emocím mluvčího a akustickému kontextu okolí. Je integrován do elektromobilů Xiaomi a chytrých spotřebičů pod licencí Apache 2.0. Jeho pokročilejší sourozenec MiMo-Audio byl následně plně integrován do multimodálního jádra MiMo-V2.5.

Klonování hlasu do 646 jazyků za sekundu

Jedním z technologicky nejzajímavějších počinů je OmniVoice, text-to-speech (TTS) model představený v květnu 2026 týmem Kaldi z AI Lab Xiaomi. OmniVoice zvládá zero-shot klonování hlasu – k dokonalé replikaci hlasových charakteristik mu stačí pouhých několik sekund referenčního audia.

Technologický průlom: OmniVoice podporuje rekordních 646 jazyků včetně těch s minimem tréninkových dat. Díky zjednodušené architektuře s jedním transformerem, která mapuje text přímo na akustické tokeny, dokázalo Xiaomi natrénovat model na 100 000 hodinách audia za jediný den. Inference běží v PyTorchu až 40× rychleji než v reálném čase.

Model obsahuje integrované nástroje pro korekci výslovnosti (např. pro polyfonní čínské znaky nebo specifická anglická propria) a je komplet uvolněn jako open-source pod Apache-2.0. Doplňuje ho systém MiMo-V2.5-ASR pro bilingvní rozpoznávání řeči.

Od Xiao AI k autonomnímu agentu miclaw

Jak se tyto inovace projevují u koncových zákazníků? Běžné AI funkce zastřešuje nadstavba HyperAI integrovaná v systému HyperOS 2 (globálně představená na MWC 2025 a nasazená od řady Xiaomi 15 až po Redmi Note 14 Pro+). Nabízí simultánní překlady, sumarizace a pokročilou editaci fotografií, přičemž na globálních trzích využívá jako backend Google Gemini. Hlasový asistent Xiao AI se transformoval na „Super Xiao AI“ s hlubokou integrací do subsystémů HyperCore a HyperConnect.

Skutečnou revolucí je však projekt miclaw, který byl oznámen v březnu 2026 a aktuálně prochází uzavřeným beta testováním. Nejedná se o chatbot, ale o autonomního systémového agenta.

Uživatel miclaw pouze zadá cíl a agent sám spouští aplikace, vyplňuje formuláře, naviguje v rozhraní systému a provádí vícekrokové operace bez nutnosti lidské supervize. Funguje na principu „inference-execution loop“ – AI naplánuje krok, vykoná ho, analyzuje výsledek a pokračuje dál. Data jsou kvůli bezpečnosti zpracovávána v reálném čase pomocí hybridního schématu edge-cloud privacy computing a nejsou využívána k trénování modelů. Plná systémová integrace se chystá pro HyperOS 4, přičemž agent se již testuje i v segmentu wearables přes aplikaci Xiaomi Health.

Miliardový rozpočet a velká konvergence

Za tímto masivním sprintem stojí nekompromisní finanční síla. Generální ředitel Xiaomi Lei Jun oznámil v březnu 2026 investici ve výši minimálně 8,7 miliardy dolarů do AI během následujících tří let. Roční rozpočet na výzkum a vývoj (R&D) společnosti pro rok 2026 tak atakuje hranici 40 miliard jüanů (cca 5,7 miliardy USD).

Sázky na open-source strategii se vyplácejí: na jaře 2026 modely od Xiaomi generovaly už 21 % veškerého provozu na platformě OpenRouter. Cílem Lei Juna pro letošní rok je takzvaná „velká konvergence“ – dokonalé hardwarové a softwarové spojení vlastního čipu, vlastního operačního systému (HyperOS) a vlastních AI modelů v jediném uživatelském zařízení.

Před rokem nemělo Xiaomi na poli velkých jazykových modelů prakticky žádnou veřejnou stopu. Dnes disponuje jedním z nejucelenějších AI ekosystémů na světě. Pokud miclaw a HyperOS 4 doručí slibovanou autonomii do kapes milionů uživatelů, Xiaomi definitivně smaže nálepku pouhého výrobce hardwaru a stane se globální AI platformou první velikosti.

Diskuze k článku

Vložte vlastní komentář Zrušit odpověď na komentář

Vaše jméno nebo Přihlásit se

Váš komentář

Vyplněním shora uvedených údajů beru na vědomí, že společnost TEXT FACTORY s.r.o., sídlem Brno, Durďákova 336/29, Černá Pole, PSČ: 613 00, IČ: 06157831, zapsané u Krajského soudu v Brně, oddíl C, vložka 100399, bude zpracovávat mé osobní údaje uvedené v rámci mnou vyplněného registračního formuláře na základě oprávněných zájmů TEXT FACTORY s.r.o. dle čl. 6 odst. 1 písm. f) GDPR a pro splnění právních povinností (čl. 6 odst. 1 písm. c) GDPR), a to pro tyto účely: nezbytnost zajistit oprávnění návštěvníka webových stránek provozovaných společností TEXT FACTORY s.r.o. přispívat aktivně ke zveřejněným článkům nebo v rámci diskusních fór a výkon práv TEXT FACTORY s.r.o. jako administrátora těchto diskusních fór. Více informací o zpracování osobních údajů a právech lze nalézt v Poučení o ochraně osobních údajů. celý text

Xiaomi pokořilo neuvěřitelný milník, tyto mobily válcují i největší konkurenci

Čtěte také

Dnes nejčtenější

Studenti dostali vyhazov ze školy za podvody s chytrými brýlemi, učitelé se už teď děsí budoucnosti