⚡️ OpenMythos: открытая реконструкция Claude Mythos на PyTorch Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной лите…
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos