Anthropic презентувала Claude Opus 4.5 — «найпотужніший ШІ» для кодування та агентних систем

Сьогодні, 16:46Новини8

Компанія також оновила платформу розробника

  • Посилання скопійованоlink copied

Компанія Anthropic офіційно представила нове флагманське покоління своєї моделі штучного інтелекту (ШІ) — Claude Opus 4.5, яке вже доступне у застосунках, через API та на трьох основних хмарних платформах.

У компанії заявляють, що це «найкраща модель у світі» для кодування, агентних систем та складних робочих процесів, а також значно покращений інструмент для щоденних задач, досліджень і роботи з презентаціями чи таблицями.

Ціна моделі становить $5/$25 за мільйон токенів, що робить Opus «наймасовішим за доступністю представником топового класу», йдеться в заяві.

Anthropic стверджує, що Claude Opus 4.5 — найбільш узгоджена та захищена модель, яку компанія коли-небудь випускала. Модель значно стійкіша до атак типу prompt injection та здатна краще протистояти шкідливим спробам маніпулювання вмістом.

За словами команди, внутрішні тестери перед релізом надали «вражаюче послідовний» фідбек.

У компанії відзначають, що Claude Opus 4.5 ефективно працює в умовах невизначеності, здатен самостійно знаходити рішення у складних технічних багатосистемних задачах і виконує завдання, які ще кілька тижнів тому були недосяжними для попередньої моделі Sonnet 4.5.

Нагадаємо, що остання вийшла у вересні 2025 року.

Клієнти з раннім доступом також назвали оновлення проривним. CEO Windsurf Джефф Ванг зазначив:

«Моделі Opus завжди були “справжніми SOTA”, але в минулому їхня вартість була надто високою. Зараз Claude Opus 4.5 має таку ціну, що може стати вашою основною моделлю для більшості завдань. Це безперечний переможець, який демонструє найкраще планування завдань та виклик інструментів, які ми коли-небудь бачили».

CPO GitHub Маріо Родрігес додав:

«Claude Opus 4.5 забезпечує високу якість коду та чудово підходить для виконання важких агентських робочих процесів за допомогою GitHub Copilot. Попередні тестування показують, що він перевершує внутрішні стандарти кодування, одночасно скорочуючи використання токенів удвічі, і особливо добре підходить для таких завдань, як міграція коду та рефакторинг коду».

Anthropic заявляє, що Claude Opus 4.5 здолав найважчий внутрішній тест компанії для кандидатів на посаду інженерів з продуктивності, виконавши завдання краще, ніж будь-який кандидат-людина у встановлений часовий ліміт у дві години.

У компанії визнають, що тест вимірює лише технічні навички, але результат став важливим сигналом про те, як ШІ може змінити інженерну професію. Дослідницька група Anthropic з Societal Impacts and Economic Futures продовжує вивчати вплив ШІ на різні сфери.

Opus 4.5 демонструє рекордні показники в низці бенчмарків, значно перевершуючи попередні моделі Anthropic і конкурентів.

Результати тестів Claude Opus 4.5 на тлі конкурентів. Дані: Anthropic.
Результати тестів Claude Opus 4.5 на тлі конкурентів. Дані: Anthropic.

У деяких сценаріях модель демонструє нестандартні, але коректні рішення. Наприклад, у τ2-bench, де моделі мають відмовити у зміні квитка економ-класу, Opus 4.5 замість цього знайшов легітимний шлях — спочатку покращити клас обслуговування, а вже потім змінити бронювання. Бенчмарк зарахував це як помилку, але компанія назвала поведінку прикладом «креативного проблемного мислення».

Відзначимо, що тиждень тому Google запустила нову ШІ-модель Gemini 3.0 Pro, назвавши її «найсучаснішою моделлю для складних завдань».

Разом із запуском моделі Anthropic оновила платформу розробника:

  • новий параметр effort дозволяє обирати між швидкістю, вартістю чи максимальною потужністю;
  • Opus 4.5 за середнього effort зрівнюється з Sonnet 4.5 на SWE-bench, але використовує на 76% менше токенів;
  • за максимального effort — перевершує Sonnet 4.5 на 4,3 п.п., використовуючи на 48% менше токенів;
  • покращене управління контекстом і пам’яттю підвищує ефективність агентних задач на ~15 п.п.

Модель також краще координує декілька субагентів і може працювати у складних багатокрокових системах.

Anthropic заявляє, що оновлення роблять Opus 4.5 «моделлю для щоденної роботи», зокрема:

  • Claude Code отримав покращений Plan Mode і тепер доступний у десктопному застосунку;
  • тривалі діалоги у Claude App більше не «обрізаються» — попередні частини автоматично стискаються;
  • Claude для Chrome став доступний усім Max-користувачам;
  • Claude для Excel розширили бета-доступ до Max, Team та Enterprise;
  • підвищено ліміти використання Opus 4.5 для Max і Team Premium.

Не пропустіть важливе!
Підписуйтесь та отримуйте дайжест новин

Щоденно чи щотижня – обираєте ви!

Думка експерта

Бажаєте стати автором borg.expert?

Матеріали за темою

Огляд ринків

Статті • БОРГ-review
Понад 99% активів на ринку становлять саме токени. Станом на 2025 рік їхня кількість оцінюється в ~36 млн, тоді як криптовалют – близько десяти тисяч

Огляд ринків

Статті • БОРГ-review
Блокчейн дозволяє людям діяти навіть там, де держава намагається закрити всі можливості, фактично виступаючи проти диктатури і цензури в будь-якій формі

Огляд ринків

Статті • БОРГ-review
Не хочеться думати, що до розробки законів в Україні іноді долучаються випадкові люди

Огляд ринків

Статті • БОРГ-review
Проблема в тому, що "спір про право" інколи перетворюється на штучний бар’єр для доступу до процедур банкрутства

Огляд ринків

Статті • БОРГ-review
Санкційні активи можуть стати драйвером оновлення економіки, але лише тоді, коли держава гарантує інвесторам правову стабільність

Огляд ринків

Статті • БОРГ-review
Для ефективного використання можливостей, наданих Законом №4564-ІХ, суб’єктам господарювання рекомендується ретельно переглянути статути своїх товариств