Google åbner op for adgang til den næste generation af sin Gemini 2.5 Computerbrugsmodellen bag Mariner-projektet og de såkaldte agentfunktioner i AI-tilstand. Denne specialiserede model Gemini Den kan interagere med grafiske brugergrænseflader – det vil sige websteder og browsere – og udføre opgaver helt automatisk.
Gemini 2.5 Computerbrug fungerer i flere gentagne trin: først modtager den input fra brugeren, dvs. hans anmodning, et øjebliksbillede af det aktuelle miljø og en handlingshistorik. Derefter udfører den GUI-analyse og opretter en reaktion – såsom et klik, indtastning eller flytning af markøren. Når handlingen er udført, sender den et opdateret skærmbillede tilbage, og hele processen gentager sig, indtil opgaven er fuldført.
Gemini 2.5 kan udføre opgaver som f.eks. søgning, URL-navigation, rulning, træk af elementer, tastekombinationer eller klikke. Google Han viste også praktiske eksempler, såsom automatisk tilføjelse af en kunde til CRM-systemet fra en webformular eller omarrangering af noter på en digital opslagstavle efter kategori.
Modellen er i øjeblikket primært optimeret til webbrowsere, men test viser lovende resultater selv i Android-miljøet. Google nævner benchmarken Android verden, hvilket bekræfter høj ydeevne inden for mobilautomatisering, selvom det endnu ikke fuldt ud understøtter desktopkontrol.
Takket være evnen til at læse skærmen og forstå brugerfladen bruger Google Gemini 2.5 også internt for automatiseret UI-testningModellen er baseret på en visuel forståelse af systemet. Gemini 2.5 Pro og leverer lavere latenstid end konkurrerende løsninger som Claude eller chatGPT.
Gemini 2.5 Computerbrug er tilgængelig i offentlig forhåndsvisning igennem Gemini API i Google AI Studio og Vertex AI. Udviklere kan begynde at bygge deres egne assistenter og værktøjer til automatisering af webworkflows.