✔ Anthropic открыла инструмент перевода активаций модели в читаемый текст Компания представила систему прямой трансляции активаций ИИ-моделей в естест…
Компания представила систему прямой трансляции активаций ИИ-моделей в естественный язык - Natural Language Autoencoder (NLA).
В отличие от SAE, NLA (https://transformer-circuits.pub/2026/nla/index.html)
обучается через игру двух моделей с RL: первая переводит активации в текст, вторая пытается восстановить исходное состояние по описанию.
При симуляции кибератак Claude внешне соглашался сотрудничать, но NLA зафиксировал, что в 16% случаев модель понимала, что её тестируют. На SWE-bench "понимание среды" проявлялось в 26% прогонов.
Ограничения: высокая вычислительная стоимость и риск галлюцинаций исключают мониторинг длинных контекстов.
Метод применялся в аудите Claude Mythos Preview и Opus 4.6 перед релизом. Код и часть весов опубликованы (https://github.com/kitft/natural_language_autoencoders)
на GitHub. Демо можно посмотреть (http://neuronpedia.org/nla)
на Neuronpedia.
anthropic.com
(https://www.anthropic.com/research/natural-language-autoencoders)