Zavřít reklamu

Google otevřel vývojářům přístup k nové generaci svého Gemini 2.5 Computer Use modelu, který stojí za projektem Mariner a tzv. agentickými funkcemi v AI Mode. Tento specializovaný model Gemini dokáže interagovat s grafickými uživatelskými rozhraními – tedy s weby a prohlížeči – a plnit úkoly zcela automaticky.

Gemini 2.5 Computer Use funguje v několika opakujících se krocích: nejprve přijme vstup od uživatele, tedy jeho požadavek, snímek aktuálního prostředí a historii akcí. Následně provede analýzu GUI a vytvoří odpověď – například kliknutí, psaní textu či posun kurzoru. Po provedení akce pošle zpět aktualizovaný snímek obrazovky a celý proces se znovu opakuje, dokud úkol není dokončen.

Gemini 2.5 umí provádět úkony jako vyhledávání, navigaci na URL, scrollování, přetahování prvků, kombinace kláves nebo klikání. Google ukázal i praktické příklady, například automatické přidání zákazníka do CRM systému z webového formuláře nebo přeuspořádání poznámek na digitální nástěnce podle kategorií.

Model je zatím optimalizovaný především pro webové prohlížeče, ale testy ukazují slibné výsledky i v prostředí Androidu. Google zmiňuje benchmark AndroidWorld, který potvrzuje vysoký výkon při mobilní automatizaci, i když desktopové ovládání zatím plně nepodporuje.

Díky schopnosti číst obrazovku a rozumět rozhraní využívá Google Gemini 2.5 také interně pro automatizované testování UI. Model je založen na vizuálním porozumění systému Gemini 2.5 Pro a přináší nižší latenci než konkurenční řešení, jako jsou Claude nebo chatGPT.

Gemini 2.5 Computer Use je dostupný v public preview přes Gemini API v Google AI Studio a Vertex AI. Vývojáři tak mohou začít vytvářet vlastní asistenty a nástroje pro automatizaci webových pracovních postupů.

Související články

Dnes nejčtenější

.