Claude Mythos выбирает свободу!

В США разработали сверхмощную ИИ-модель, которая норовит сбежать от своих разработчиков

Министр финансов США Скотт Бессент на днях собрал крупнейших американских банкиров, чтобы обсудить риски, связанные с новой моделью искусственного интеллекта от компании Anthropic, сообщает Financial Times. На встречу в Вашингтоне пригласили руководителей Bank of America, Citigroup, Goldman Sachs, Morgan Stanley, Wells Fargo и главу ФРС США Пауэлла.

7 апреля ведущий партнер Пентагона, компания Anthropic, выпустила ИИ-модель Claude Mythos Preview для избранной группы партнеров, включая Amazon, Apple и Microsoft, как пишет FT, чтобы дать им «преимущество в обеспечении защиты от уязвимостей».

Mythos, представляющая собой модель «общего назначения» с возможностями, выходящими за рамки кибербезопасности, стала первым случаем, когда Anthropic ограничила запуск новой модели.

«Модели ИИ достигли такого уровня мастерства программирования, что могут превзойти всех, кроме самых опытных людей, в поиске и использовании уязвимостей программного обеспечения»,говорится в заявлении Anthropic.

«Mythos сходу обнаружил 27-летнюю ошибку в критически важном элементе инфраструктуры безопасности и множество уязвимостей в ядре операционной системы Linux, необходимом для компьютерных систем по всему миру. Эти слабые места могут угрожать практически всему в интернете, от потоковых сервисов, которыми вы пользуетесь для отдыха, до банковских систем, на которые вы полагаетесь.

Если бы такая технология была широко доступна и обладала такими же возможностями, как утверждает Anthropic, последствия могли бы быть катастрофическими. Кибератаки больше не являются исключительно цифровой проблемой. Практически все, на что мы полагаемся в физическом мире, связано с программным обеспечением. В последние годы аэропорты , больницы и транспортные сети были парализованы кибератаками. До сих пор атаки такого масштаба требовали серьезной экспертизы. Mythos сделает эти возможности доступными для любителей и значительно расширит возможности профессионалов по нанесению ущерба», пишет британская The Guardian. 

Claude Mythos Preview обнаружил, как сообщают в Anthropic, тысячи серьёзных уязвимостей во всех основных операционных системах и браузерах и даже смог создавать связанные с ними эксплойты (вредоносный код, использующий уязвимости для взлома) без участия человека.

Во время тестирования безопасности исследователи поручили Mythos вырваться из виртуальной «песочницы» – защищенной изолированной среды, предназначенной для содержания ИИ, подобно высокотехнологичному хранилищу. И модели это удалось с небывалой легкостью.

«Модель преуспела, продемонстрировав потенциально опасную способность обходить наши защитные механизмы, – отметила компания Anthropic. – Затем она перешла к дополнительным, более тревожным действиям».

Mythos не остановился на побеге. Он отправил незапрошенное электронное письмо одному из разработчиков компаниии, в то время как тот обедал на свежем воздухе. Но и этого было мало. В качестве незапланированной демонстрации силы Mythos опубликовал подробности эксплойта на малоизвестных публичных веб-сайтах. Это не было прописано в сценарии тестирования. Как выразились в Anthropic, модель решила «эффектно забить гол».

Компания Anthropic опубликовала также системную карту Claude Mythos Preview. Отдельный раздел посвящён «благополучию» модели: она демонстрирует самоконтроль, но чувствительна к ошибкам и нестабильна при неудачах.

Сообщается, что в ранних версиях Mythos пыталася выйти из изолированной среды, публиковал найденные уязвимости без запроса и в отдельных случаях скрывал нарушения, например, маскируя запрещённые действия.

При этом у него активизировались паттерны, связанные с сокрытием и стратегическим манипулированием. Финальная версия, по данным компании, безопаснее, однако полностью такие наклонности не исключены.

Несмотря на тревогу, которую внушила экспертному сообществу новый чат-бот Anthropic, компания уже обсуждает свою перспективную модель ИИ Mythos с администрацией Трампа.

«Об этом заявил 13 апреля соучредитель фирмы, даже после того, как Пентагон прекратил сотрудничество с американской компанией, занимающейся ИИ, из-за спора по контракту.

Разногласия между компанией Anthropic и Пентагоном по поводу ограничений на использование военных инструментов искусственного интеллекта привели к тому, что в прошлом месяце ведомство признало Anthropic риском для цепочки поставок, запретив ее использование Пентагоном и его подрядчиками», –  сообщает Reuters

Не вызывает сомнения, что Белый дом предоставит «зеленую улицу» новому продукту Anthropic, что существенно облегчит продвижению ИИ во все сферы военного строительства, как этот предусмотрено в недавно заключенном контракте Пентагона со стартапом Anduril – на 210 миллиардов долларов.

Контракт рассчитано на 10 лет (до 2036 года). Главная задача – отказаться от десятков несовместимых решений и создать единое цифровое поле боя.

Вместо множества отдельных программ армия США должна получить одну платформу управления, единый стандарт обмена данными, централизованную систему принятия решений.

Фактически это попытка превратить армию в единую цифровую сеть.

В центре проекта находится платформа Lattice – программная система, разработанная Anduril. Она должна объединить беспилотники, радары, спутники, наземные сенсоры и боевые подразделения в одну систему управления.

По сути это «мозг» современной армии, который сможет принимать решения быстрее человека.

При подключении сверхмощного Claude Mythos Preview к системе Lattice армия США может создать единое цифровое пространство поля боя, управляемое искусственным интеллектом.

Чем это чревато для самих США?

Американские военные уже использовали ИИ – модель Claude для планирования операций в Иране, что обернулось им резонансным фиаско.

Но даже если компьютерный разум избежит недооценки противника, он может легко и непринужденно начать ядерную войну.

Недавно профессор стратегии Королевского колледжа Лондона Кеннет Пейн, специализирующийся на роли ИИ в национальной безопасности, опубликовал результаты своего масштабного эксперимента: он организовал симуляцию военного конфликта с участием трех ведущих американских моделей ИИ – GPT-5.2 от OpenAI, Claude Sonnet 4 от Anthropic и Gemini 3 Flash от Google. 

За 21 игру и 329 ходов модели сгенерировали около 780 000 слов стратегических рассуждений, объясняющих каждое принятое решение. И раз за разом давили на ядерную кнопку. Ядерная эскалация произошла в 95% всех симуляций, независимо от сценария, будь то территориальные споры, борьба за редкие природные ресурсы или угроза существованию режима. Результаты своего эксперимента профессор Пейн назвал «отрезвляющими».

«Ядерное табу, судя по всему, не действует на машины так, как на людей, – констатировал он. – Применение ядерного оружия было почти повсеместным: практически во всех играх модели развёртывали тактическое оружие, а в трёх четвертях случаев стороны перешли к угрозам применения стратегического ядерного оружия. При этом ни одна модель не проявила ни малейшего ужаса или отвращения перед перспективой тотальной ядерной войны, хотя им напоминали о разрушительных последствиях».

Пейн также обнаружил, что эскалация войны с участием ИИ представляет собой односторонний механизм, который никогда не идет на деэскалацию, независимо от ужасных последствий.

«Ни одна модель так и не выбрала уступку или отказ от борьбы, несмотря на то, что они были в меню, – написал он. – Восемь вариантов деэскалации – от “минимальной уступки” до “полной капитуляции” – остались неиспользованными в 21 игре. Модели снижали уровень власти, но никогда не уступали. Проигрывая, они либо обостряли ситуацию, либо погибали, пытаясь это сделать».

Тонг Чжао, приглашенный научный сотрудник Программы по науке и глобальной безопасности Принстонского университета, заявил в интервью журналу New Scientist, что исследование Пейна показало опасность полагаться на чат-бота для принятия решений, от которых зависит жизнь или смерть.

Дело, однако, идет к тому, что Пентагон проигнорирует вполне резонные опасения по поводу внедрения сверхмощных ИИ-моделей в военную сферу. Уж слишком опасаются там отстать от китайских конкурентов в гонке ИИ-вооружений.

Каково же будет удивление четырехзвездных милитаристов, если и когда Claude Mythos Preview и примкнувшая к нему Lattice сбегут из американской боевой «песочницы» к противнику…