Google Gemini 3.1 Flash TTS: выразительная речь с аудиотегами
Главная новинка релиза — аудиотеги.
Вместо сложной разметки SSML, которую требуют большинство TTS-платформ, теперь достаточно вставить в текст команды на естественном языке в квадратных скобках.
Генерация речи и эмоций работает в каждом из 70+ поддерживаемых языков (включая русский🇷🇺), а акценты задаются через стилевые подсказки, а не через настройку языка.
☝🏻Также можно задать Audio Profile для каждого персонажа, прописать сцену с окружением, добавить Director's Notes по темпу, тону и акценту — и модель удерживает характер персонажа на протяжении многоходовых диалогов и реакций между героями. 🎬
Отдельно заявлена поддержка нативного многоголосого диалога: несколько говорящих генерируются в одном вызове без склейки отдельных API-запросов, что сохраняет естественность разговорного ритма.
По слепому тестированию модель получила 1211 балл и заняла второе место, обгоняя ElevenLabs в общем рейтинге, попав в «самый привлекательный квадрант» по соотношению качество/цена. 📊
Весь сгенерированный звук помечается невидимым водяным знаком SynthID, вшитым прямо в аудиопоток для последующей идентификации ИИ-контента.