Российские пираты провернули то, от чего у индустрии озвучки и дубляжа случился коллективный инфаркт задницы.
Как это работает?
Это не старые робо-голоса, от которых кровь шла из ушей. Тут Neural Codec Language Models. Такая нейронка не просто склеивает звуки в слова, она разбивает голос на «акустические токены» и предсказывает их, как ChatGPT слова. Ей нужно всего несколько секунд записи вашего голоса, чтобы клонировать его.
При озвучивании нейронка берет "каркас" эмоций из оригинала (японского) и натягивает на него тембр нужного русского актера. Даже актеры из AniLibria (чьи голоса, судя по всему, и послужили набором обучающих данных) в шоке. Качество настолько высокое, что отличить фейк от оригинала можно только по микро-артефактам, которые слышат лишь звукорежиссеры.
Наука для всех в MAХ