🔥 Кризис ОЗУ подходит к КОНЦУ — Google выкатили новейший алгоритм сжатия для LLM-моделей TurboQuant!
С ним нейронка потребляет меньше ресурсов для запоминания предыдущих токенов. При этом результаты генерации не становятся худе!
Итого: требования к памяти снижаются в 6️⃣ раз, а скорость увеличивается в 8️⃣ раз — рынок уже отреагировал и отправил акции производителей памяти в пике.
Всё-таки соберём комп.