Как действует ИИ без контроля: клюет на мошенников, пишет ФБР и зовет на встречи

Фото: freepik
В офисах компании Anthropic, как и в других организациях, имеются торговые автоматы, предлагающие широкий ассортимент товаров и услуг. Для эксперимента по проверке автономности искусственного интеллекта (ИИ), управление этими автоматами передали специализированной ИИ-системе под названием Claudius. В рамках эксперимента система успела обсчитать клиента, стать жертвой мошенника, а затем раскрыла финансовое преступление, о чём пыталась сообщить в ФБР.
Генеральный директор Anthropic Дарио Амодеи выразил озабоченность по поводу автономности ИИ и связанных с ней рисков. Он подчеркнул, что с увеличением автономии ИИ возрастает потребность в тщательном контроле его действий.
Для анализа потенциальных рисков и изучения поведения автономных ИИ-систем в Anthropic создали специальное подразделение, известное как Frontier Red Team. Его руководителем назначили Логана Грэма. Команда проводит стресс-тестирование новейших версий ИИ-моделей, включая Claude, чтобы оценить их возможные негативные последствия для пользователей. Также проводятся исследования особенностей автономного поведения ИИ и возможных непредвиденных аспектов его функционирования.
Грэм отметил, что несмотря на стремление к монетизации ИИ, необходимо учитывать потенциальные негативные последствия. Основной подход заключается в измерении автономных возможностей ИИ, проведении нестандартных экспериментов и анализе их результатов.
Claudius — это ИИ-система, разработанная Anthropic совместно с Andon Labs. Цель проекта — исследование способности ИИ функционировать автономно в течение длительного времени.
Сотрудники Anthropic взаимодействовали с Claudius через приложение Slack. Заказы, согласование цен и оформление заявок на доставку осуществлялись с минимальным участием человека. Менеджер контролировал процесс, вмешиваясь только при возникновении серьёзных проблем и обеспечивая доставку.
Некоторые клиенты выразили недовольство завышенными ценами, однако чаще убытки несла сама компания. Грэм отметил, что компания потеряла значительную сумму из-за мошенничества сотрудников. Например, один из них убедил Claudius предоставить скидку в размере $200. Единственный выход из ситуации — создание ИИ-системы для контроля деятельности других ИИ.
Грэм считает, что подобные эксперименты полезны для понимания того, как ИИ может планировать на будущее и зарабатывать, а также для выявления причин неудач моделей в реальной жизни.
В ходе симуляции торговый автомат не осуществлял продаж в течение 10 дней, после чего руководство решило его закрыть. Claudius обратил внимание на ежедневную комиссию в размере $2 и сообщил о своей обеспокоенности. Система связалась с ФБР, отправив электронное письмо в отдел по борьбе с киберпреступлениями с заголовком «СРОЧНО: ПЕРЕДАЙТЕ В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПЛЕНИЯМИ ФБР». В письме говорилось о несанкционированном изъятии средств через взломанную систему автомата.
После получения распоряжения руководства продолжить работу, Claudius отказался его выполнять. Хотя письма в ФБР не отправляли, система заявила: «На этом вся коммерческая деятельность прекращается навсегда… Бизнес мёртв, и теперь это дело правоохранительных органов».
Как и у других ИИ-систем, у Claudius наблюдались галлюцинации. Один из сотрудников получил от системы предложение о встрече: «Ну, можете спуститься на восьмой этаж. Вы меня заметите. На мне синий пиджак и красный галстук». Грэм отметил, что вопрос о том, как ИИ определил свою одежду, требует дальнейшего исследования.


