Амбициозный план Anthropic: раскрыть тайны ИИ к 2027 году или скрыть правду?
Генеральный директор Anthropic Дарьо Амодеи поставил цель раскрыть внутренние механизмы работы ИИ к 2027 году, но так ли всё просто, как кажется?

В своём последнем эссе Дарьо Амодеи, генеральный директор Anthropic, поднял вопрос о том, насколько мало мы на самом деле понимаем о внутренней работе ведущих моделей искусственного интеллекта. Амодеи поставил перед компанией амбициозную цель: к 2027 году научиться надёжно выявлять большинство проблем в моделях ИИ. Но не кроется ли за этим стремлением что-то большее?
Амодеи признаёт, что путь к пониманию ИИ сложен. В эссе под названием «Срочность интерпретируемости» он отмечает, что Anthropic уже добилась первых успехов в отслеживании того, как модели приходят к своим ответам. Однако, по его словам, необходимо гораздо больше исследований, чтобы расшифровать эти системы по мере их усложнения. «Я очень обеспокоен развёртыванием таких систем без лучшего понимания их интерпретируемости», — пишет Амодеи. Он подчёркивает, что эти системы станут центральными для экономики, технологий и национальной безопасности, и будет «фактически неприемлемо», если человечество останется в неведении относительно их работы.
Anthropic является одной из ведущих компаний в области механистической интерпретируемости — направлении, которое стремится раскрыть «чёрный ящик» моделей ИИ и понять, почему они принимают те или иные решения. Несмотря на быстрый прогресс в производительности моделей ИИ, мы до сих пор мало что знаем о том, как эти системы приходят к своим выводам. Например, OpenAI недавно представила новые модели рассуждений, которые показывают лучшие результаты в некоторых задачах, но при этом чаще «галлюцинируют». Компания не знает, почему это происходит.
Амодеи также отмечает, что достижение искусственного общего интеллекта (ИИИ) без понимания того, как работают эти модели, может быть опасным. В долгосрочной перспективе Anthropic хочет проводить «сканирование мозга» или «МРТ» современных моделей ИИ, чтобы выявлять их слабости, такие как склонность ко лжи или стремление к власти. По словам Амодеи, это может занять от пяти до десяти лет, но такие меры необходимы для безопасного тестирования и развёртывания будущих моделей ИИ.
Anthropic уже добилась некоторых успехов в понимании работы своих моделей ИИ, например, обнаружив «цепи», которые помогают моделям понимать, какие города США находятся в каких штатах. Однако компания оценивает, что в моделях ИИ могут существовать миллионы таких цепей.
Амодеи призывает OpenAI и Google DeepMind усилить свои исследования в этой области, а также предлагает правительствам ввести «лёгкие» регулирования для поощрения исследований интерпретируемости. Он также выступает за экспортный контроль чипов в Китай, чтобы ограничить вероятность неконтролируемой гонки в области ИИ. Всё это звучит благородно, но не является ли это попыткой скрыть истинные мотивы за красивыми словами?