C
ChaoBro

Anthropic Project Deal: Claude торгует за сотрудников на внутреннем рынке — что говорят результаты

В июне прошлого года Anthropic провёл эксперимент: открыл маленький магазинчик в офисной столовой, которым управлял AI-продавец. Это называлось Project Vend.

Теперь они сделали улучшенную версию — Project Deal. На этот раз речь не о продаже снеков, а о том, чтобы сотрудники передавали Claude реальные потребности в покупке и продаже, позволяя Claude вести переговоры, сравнивать цены и закрывать сделки от их имени.

Как работает эксперимент

Anthropic создал внутренний рынок в офисе Сан-Франциско. Сотрудники могут делегировать Claude различные транзакции: покупку б/у оборудования, продажу ненужных вещей, переговоры о ценах на услуги. Claude не просто выполняет инструкции — он принимает решения: когда принять предложение, когда продолжать торговаться, когда отказаться от сделки.

Это не контролируемая среда. Нет заранее заданных «правильных ответов», нет упрощённых наборов правил. Claude сталкивается с реальным, хаотичным человеческим торговым поведением.

Несколько результатов, заслуживающих внимания

Claude справляется с многораундовыми переговорами. Не однократное принятие предложения, а настоящие торги. Он оценивает паттерны предложений другой стороны и корректирует свою стратегию. Это означает, что способность агентов к принятию решений в многошаговых взаимодействиях сильнее, чем многие думают.

Claude ошибается. Статья не скрывает этого. В некоторых транзакциях решения Claude были хуже человеческих, некоторые ценовые стратегии оказались субоптимальными задним числом. Это честно — если бы статья писала только об успешных случаях, это был бы маркетинговый материал, а не исследование.

Самая интересная часть — не то, насколько хорошо Claude справляется, а то, что у него НЕ получается. Статья отмечает, что Claude значительно хуже справляется в сценариях переговоров, требующих «человеческого подхода», по сравнению с чисто информационными сценариями. Например, в транзакциях, связанных с построением доверия и поддержанием отношений, стратегия Claude часто слишком механистична.

Почему Anthropic занимается этим «кажущимся побочным» экспериментом

Компания-разработчик моделей тратит ресурсы на эксперимент с внутренним рынком — на первый взгляд, это не имеет отношения к «созданию лучших моделей».

Но Project Deal — это по сути стресс-тест способностей агентов. Преимущество внутреннего рынка в том, что: транзакции реальны (сотрудникам действительно важен результат), среда контролируема (нет реального внешнего ущерба), данные собираемы (все взаимодействия записываются).

Ценность такого эксперимента в выявлении системных слабостей моделей в реальных сложных сценариях — слабостей, которые не видны в бенчмарк-тестах. Набрать 90 баллов на MMLU не означает, что Claude поможет вам купить приличный б/у монитор по хорошей цене.

Моя точка зрения

Самый ценный результат Project Deal, вероятно, не в том, что «Claude может торговаться за вас» — честно говоря, большинство людей не доверят AI свои покупки. Ценность в предоставлении набора эмпирических данных о границах способностей агентов.

Конкретные слабости, упомянутые в статье — слишком механистичный подход, отсутствие восприятия отношений, слабая реакция на нерациональное поведение — это то, что разработчикам фреймворков агентов необходимо знать.

Стоит наблюдать: будет ли Anthropic передавать опыт Project Deal обратно в обучение моделей? Если «способность к переговорам» можно бенчмаркать и оптимизировать так же, как способность к написанию кода — тогда следующее поколение Claude в агентных сценариях может показать качественное улучшение.


Основные источники: