Xiaomi už dávno není jen výrobcem dostupných smartphonů a koloběžek. Během uplynulého roku a půl čínský dravě vybudoval komplexní AI ekosystém, který svými parametry i efektivitou šokuje Silicon Valley. Zde je detailní pohled na rodinu modelů MiMo, revoluční klonování hlasu OmniVoice a autonomního agenta miclaw.
Zatímco se globální pozornost upírala k OpenAI, Anthropicu nebo Googlu, Xiaomi v tichosti provedlo jednu z nejagresivnějších technologických transformací dekády. Společnost, která má v kapse miliardové rozpočty z prodeje spotřební elektroniky a elektromobilů, vyvinula kompletní vertikálně integrovaný AI stack – od open-source LLM modelů přes multimodální systémy až po agenty, kteří dokážou ovládat telefon místo vás.
MiMo-7B porazilo o1-mini
Ostrý start AI ofenzívy Xiaomi nastal v dubnu 2025 s vydáním modelu MiMo-7B (Xiaomi Model). Místo generování běžných textů se inženýři pod vedením Luo Fuliho (který přišel z elitního týmu DeepSeek) zaměřili na matematické uvažování a generování kódu.
Výsledek? Přestože měl model pouhých 7 miliard parametrů, v matematickém benchmarku MATH-500 dosáhla jeho verze trénovaná pomocí zpětnovazebního učení (Reinforcement Learning) úspěšnosti 95,8 %. V soutěžích AIME 2024 a 2025 tak MiMo-7B překonalo i specializované modely jako OpenAI o1-mini nebo Qwen-32B-Preview. Model byl natrénován na 25 triliónech tokenů (včetně 200 miliard specializovaných reasoning tokenů) a Xiaomi jej uvolnilo pod svobodnou licencí MIT na platformě Hugging Face.
Mohlo by vás zajímat
Architektura MoE a bilionové vlajkové lodě
Tempo inovací se v dalších měsících ještě zrychlilo. Vývojová linie modelů MiMo ukazuje brutální technologický pokrok:
- MiMo-V2-Flash (Prosinec 2025): Model s celkovým počtem 309 miliard parametrů postavený na architektuře Mixture-of-Experts (MoE). V jakýkoliv okamžik je aktivních pouze 15 miliard parametrů, což extrémně snižuje hardwarovou náročnost. Využívá techniku Multi-Token Prediction (MTP) pro paralelní generování a verifikaci tokenů. Dosahuje rychlosti 150 tokenů za sekundu při pouhých 2,5 % nákladů na inferenci oproti modelu Claude. V komerčním nasazení stojí API pouhých 0,1 USD za milion input tokenů.
- MiMo-V2-Pro (Březen 2026): Vlajková loď s 1 bilionem parametrů (42 miliard aktivních na jeden průchod) a masivním kontextovým oknem 1 milion tokenů. Model se poprvé objevil anonymně na platformě OpenRouter pod názvem „Hunter Alpha“, kde okamžitě ovládl žebříčky a zpracoval 1,5 bilionu tokenů, než se k němu Xiaomi oficiálně přihlásilo. Je navržen primárně pro komplexní, vícekrokové „agentí“ úlohy. Společně s ním debutovaly modely MiMo-V2-Omni (multimodální zpracování textu, obrazu a videa) a MiMo-V2-TTS.
- MiMo-V2.5 a V2.5-Pro (Duben 2026): Sjednocení architektury do nativního multimodálního modelu s 1,02 bilionu parametrů. Verze Pro se stala nejlepším open-source modelem pro autonomní agenty v benchmarku Artificial Analysis. Běžná verze MiMo-V2.5 dosahuje rychlosti až 150 tokenů za sekundu. Xiaomi navíc zrušilo příplatky za plné využití milionového kontextového okna.
- MiMo Code (Červen 2026): Autonomní programovací agent s persistentní paměťovou architekturou, která na rozdíl od běžných asistentů neztrácí kontext po zaplnění kontextového okna a pamatuje si architektonická rozhodnutí napříč celým projektem.
Zrak a sluch pro chytrou domácnost i elektromobily
AI od Xiaomi nekončí u textu a kódu. Propojení s fyzickým světem zajišťují specializované smyslové modely:
Vizuální oblast pokrývá MiMo-VL a jeho domácí varianta Miloco-7B. Tento model je natrénován pro hluboké porozumění domácímu prostředí. Dokáže v reálném čase rozpoznávat gesta (palec nahoru, OK, mír, otevřená dlaň) a identifikovat lidské aktivity jako sledování TV, cvičení nebo čtení, což posouvá automatizaci chytré domácnosti na novou úroveň.
Pro audio segment Xiaomi vyvinulo MiDashengLM-7B (srpen 2025). Na rozdíl od běžných modelů zaměřených pouze na přepis řeči využívá přístup „general audio caption“. Byl natrénován na 38 662 hodinách zvuku a rozumí nejen slovům, ale i hudbě, emocím mluvčího a akustickému kontextu okolí. Je integrován do elektromobilů Xiaomi a chytrých spotřebičů pod licencí Apache 2.0. Jeho pokročilejší sourozenec MiMo-Audio byl následně plně integrován do multimodálního jádra MiMo-V2.5.
Klonování hlasu do 646 jazyků za sekundu
Jedním z technologicky nejzajímavějších počinů je OmniVoice, text-to-speech (TTS) model představený v květnu 2026 týmem Kaldi z AI Lab Xiaomi. OmniVoice zvládá zero-shot klonování hlasu – k dokonalé replikaci hlasových charakteristik mu stačí pouhých několik sekund referenčního audia.
Technologický průlom: OmniVoice podporuje rekordních 646 jazyků včetně těch s minimem tréninkových dat. Díky zjednodušené architektuře s jedním transformerem, která mapuje text přímo na akustické tokeny, dokázalo Xiaomi natrénovat model na 100 000 hodinách audia za jediný den. Inference běží v PyTorchu až 40× rychleji než v reálném čase.
Model obsahuje integrované nástroje pro korekci výslovnosti (např. pro polyfonní čínské znaky nebo specifická anglická propria) a je komplet uvolněn jako open-source pod Apache-2.0. Doplňuje ho systém MiMo-V2.5-ASR pro bilingvní rozpoznávání řeči.
Od Xiao AI k autonomnímu agentu miclaw
Jak se tyto inovace projevují u koncových zákazníků? Běžné AI funkce zastřešuje nadstavba HyperAI integrovaná v systému HyperOS 2 (globálně představená na MWC 2025 a nasazená od řady Xiaomi 15 až po Redmi Note 14 Pro+). Nabízí simultánní překlady, sumarizace a pokročilou editaci fotografií, přičemž na globálních trzích využívá jako backend Google Gemini. Hlasový asistent Xiao AI se transformoval na „Super Xiao AI“ s hlubokou integrací do subsystémů HyperCore a HyperConnect.
Skutečnou revolucí je však projekt miclaw, který byl oznámen v březnu 2026 a aktuálně prochází uzavřeným beta testováním. Nejedná se o chatbot, ale o autonomního systémového agenta.
Uživatel miclaw pouze zadá cíl a agent sám spouští aplikace, vyplňuje formuláře, naviguje v rozhraní systému a provádí vícekrokové operace bez nutnosti lidské supervize. Funguje na principu „inference-execution loop“ – AI naplánuje krok, vykoná ho, analyzuje výsledek a pokračuje dál. Data jsou kvůli bezpečnosti zpracovávána v reálném čase pomocí hybridního schématu edge-cloud privacy computing a nejsou využívána k trénování modelů. Plná systémová integrace se chystá pro HyperOS 4, přičemž agent se již testuje i v segmentu wearables přes aplikaci Xiaomi Health.
Miliardový rozpočet a velká konvergence
Za tímto masivním sprintem stojí nekompromisní finanční síla. Generální ředitel Xiaomi Lei Jun oznámil v březnu 2026 investici ve výši minimálně 8,7 miliardy dolarů do AI během následujících tří let. Roční rozpočet na výzkum a vývoj (R&D) společnosti pro rok 2026 tak atakuje hranici 40 miliard jüanů (cca 5,7 miliardy USD).
Sázky na open-source strategii se vyplácejí: na jaře 2026 modely od Xiaomi generovaly už 21 % veškerého provozu na platformě OpenRouter. Cílem Lei Juna pro letošní rok je takzvaná „velká konvergence“ – dokonalé hardwarové a softwarové spojení vlastního čipu, vlastního operačního systému (HyperOS) a vlastních AI modelů v jediném uživatelském zařízení.
Před rokem nemělo Xiaomi na poli velkých jazykových modelů prakticky žádnou veřejnou stopu. Dnes disponuje jedním z nejucelenějších AI ekosystémů na světě. Pokud miclaw a HyperOS 4 doručí slibovanou autonomii do kapes milionů uživatelů, Xiaomi definitivně smaže nálepku pouhého výrobce hardwaru a stane se globální AI platformou první velikosti.