Закрити оголошення

Google представляє Agentic Vision – нову можливість моделі Ge.mini 3 Flash, що значно покращує точність під час роботи із зображеннями. Замість пасивного перегляду зображення, модель тепер активно досліджує візуальні дані, використовуючи код Python, масштабуючи, обрізаючи та навіть малюючи анотації безпосередньо на зображенні.

Метод агентного бачення, який зараз Google запроваджено, використовує т.зв. Думати – Діяти – Спостерігати цикл:

  • Подумайте: Модель аналізує запит та зображення, створює план дій
  • Закон: Генерує та запускає код для зміни зображення – наприклад, обрізання, масштабування, підрахунку об'єктів або виконання візуальних обчислень
  • Спостерігайте: Він повертає отримане зображення в контекст і створює відповідь на його основі

Наприклад, коли Gemini ти просиш її порахувати пальці на руці, використовуватиму Python малювати пронумеровані прямокутники навколо кожного пальця. Це дозволяє уникнути класичних помилок моделей LLM у візуальних завданнях. Він також може обробляти аналізувати складні таблиці або візуалізувати математичні розрахунки з перевіреними результатами.

Agentic Vision пропонує, згідно з Google Покращення точності на 5–10% у візуальних бенчмарк-тестах. Ця функція починає з'являтися в додатку Gemini і тепер доступний для розробників у Google AI Studio i Вершина ШІ.

У майбутньому очікується, що модель буде ще краще розпізнає візуальні деталі без явного введення даних, наприклад, він збільшить деталь або поверне зображення самостійно. Він також матиме опцію зворотний пошук та робота з веб-контентом, що надасть моделі ширший контекст для відповідей, що базуються на реальних даних.

пов'язані статті

Найчитаніший сьогодні

.