Společnost Google čelí rostoucí nespokojenosti uživatelů po zavedení nového systému správy limitů pro své LLM modely řady Gemini. Původní transparentní model limitovaný fixním počtem uživatelských promptů byl nahrazen dynamickým systémem založeným na alokaci výpočetního výkonu. Nová metodika výpočtu zohledňuje algoritrickou komplexitu požadavku, aktivované multimodální funkce a celkovou délku kontextového okna dané konverzace. Tato změna fungující na principu kreditů však v praxi vykazuje výrazné výkyvy a uživatelé často limit vyčerpají neuvěřitelně rychle.
Předplatitelé prémiového tarifu Google AI Pro, u kterého dochází k resetování operačních kvót Gemini v pětihodinových cyklech, hlásí extrémně rychlé vyčerpání přiděleného výpočetního času. Širokou publicitu získal na síti X příspěvek uživatele s přezdívkou Ashutosh Shrivastava, který demonstroval, že jediný pokyn pro generování videa za využití AI avatarů kompletně spotřeboval stoprocentní limit pětihodinového okna během několika minut, přičemž samotný proces generování selhal. Na incident reagoval dokonce i vedoucí projektu Gemini, Josh Woodward, s příslibem interního prověření.
This is crazy man… one prompt + 4 minutes and I hit my 5 hour rate limit in the Gemini app. Here is the proof. Yesterday, I hit the rate limit the same way, so I wanted to check if it would happen again.
I started with 0% usage on my 5 hour limit, then gave one simple prompt… pic.twitter.com/pqlPZKRoek
— AshutoshShrivastava (@ai_for_success) May 25, 2026
Řešením je Gemini 3.5 Flash (Low)
V reakci na kritiku vývojářů využívajících softwarovou inženýrskou platformu Antigravity představil Google specifickou variantu svého modelu s označením Gemini 3.5 Flash (Low). Cílem této modifikace je radikální snížení tokenové náročnosti u méně komplexních programátorských úloh.
Ředitel týmu Google DeepMind pro platformu Antigravity, Varun Mohan, potvrdil, že nová varianta Low generuje přibližně o 45 % méně tokenů než standardní model, který byl zpětně přejmenován na Gemini 3.5 Flash (Medium). Podle vyjádření vývojového týmu dosahuje verze Low snížení úrovně výpočetního úsilí, aniž by docházelo k degradaci systémových instrukcí nebo agresivní kompresi kontextu.
V benchmarcích zaměřených na softwarové inženýrství navíc překonává starší architekturu Gemini 3 Flash (nyní s přídomkem High). Souběžně s nasazením modelu provedl Google plošný reset tokenových kvót napříč bezplatnými i placenými tarify. Tato optimalizace je nicméně striktně vázána na vývojářské prostředí Antigravity. Samostatná integrace modelu Gemini 3.5 Flash (Low) do aplikace Gemini se aktuálně neplánuje.
Výkonnostní rozdíly u tarifů AI Ultra
Paralelně s technickými úpravami modelů přistoupil Google ke zpřehlednění produktového portfolia svých nejvyšších předplatitelských plánů, které představil na konferenci I/O 2026. Duplicitní označení dvou odlišných úrovní tarifu identickým názvem „AI Ultra“ vyvolávalo na trhu zmatení, neboť primární se zdál být pouze v kapacitě cloudového úložiště (20 TB vs. 30 TB).
Produktový manažer předplatitelských služeb Gemini AI, Vikas Kansal, oznámil aktualizaci uživatelského rozhraní, která nově nastavuje metriky tarifů na základě reálného výpočetního přídělu:
-
AI Ultra (99 USD / měsíčně): Garantuje 5krát vyšší dostupnost AI zdrojů v porovnání s tarifem Pro a 20 TB cloudového úložiště.
-
AI Ultra (199 USD / měsíčně): Garantuje 20krát vyšší dostupnost AI zdrojů v porovnání s tarifem Pro a 30 TB cloudového úložiště.