WeClone — опенсорсное создание цифрового двойника из переписок
Репозиторий китайского разработчика xming521 собрал более 16,4 тыс. звёзд и 1,3 тыс. форков, распространяется под лицензией AGPL-3.0 и полностью работает локально — данные не покидают машину пользователя.
🔻Идея проста: берутся экспортированные чаты из WeChat или Telegram (поддерживаются и иные мессенджеры), очищаются от персональных данных с помощью Microsoft Presidio — автоматически вырезаются телефоны, email, адреса и ссылки, — после чего превращаются в обучающий датасет в формате вопрос-ответ.
Под капотом — дообучение большой языковой модели методом LoRA через фреймворк LLaMA Factory.
По умолчанию используется Qwen2.5-VL-7B-Instruct, но можно подключить и другие модели.
Готовая модель разворачивается через vLLM и отдаётся наружу по OpenAI-совместимому API.
☝🏻☝🏻Дальше её достаточно подключить к чат-ботам и платформами — и ваш цифровой двойник начинает отвечать собеседникам сам.
▫️Проект также получил возможность дообучения на изображениях — то есть двойник учится не только на тексте, но и на картинках из переписки.
▫️Отдельная фича — клонирование голоса: с помощью небольшой модели на 0,5B параметров и голосовых сообщений можно получить синтез речи, похожий на оригинал.
Автор прямо предупреждает: проект находится в активной разработке, качество во многом зависит от объёма и чистоты данных.
Сама идея не нова, но WeClone впервые собрал весь пайплайн — от парсинга мессенджеров и фильтрации приватных данных до деплоя в боте — в единое коробочное решение, доступное бесплатно.