ByteDance развернула полнодуплексную голосовую модель.
ByteDance представила SeedDuplex, которая продолжает слушать пользователя, пока сама говорит. Модель обрабатывает звук и смысл слитно, поэтому умеет адаптивно определять границы реплик, она отличает реальный конец фразы от паузы на обдумывание.
Отдельный модуль шумоподавления отсекает фон и посторонние голоса. По замерам ByteDance, задержка отклика сократилась на 250 мс, а число неуместных перебиваний упало на 40%.
Seeduplex уже полностью раскатана в приложении Doubao - основном потребительском продукте ByteDance https://seed.bytedance.com/en/seeduplex