VALL-E - искусственный интеллект, который презентовала Корпорация Microsoft. Он точь-в-точь повторит голос человека, если прослушает его не менее 3 секунд. При всем этом голос подражается точно, сохраняется как тембр, так и чувственная окраска оригинала.
Компания называет VALL-E «языковой моделью нейронного кодека». Создание основывается на технологии EnCodec. Если сравнивать с другими способами преобразования текста в речь, то VALL-E в основном анализирует, как именно звучит голос человека. Потом разделяет эти исходные данные на отдельные «токены» и применяет обучающий материал, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если произнесутся другие фразы.
VALL-E учили на библиотеке LibriLight, в которой есть 60 тысяч часов англоязычной речи от более чем 7 тысяч человек. Google продемонстрировала собственный искусственный интеллект Duplex, который говорит почти неотличимо от голоса человека, ещё в 2018 году, но сущность разработки Microsoft не в самом искусственном разуме, а непосредственно в его обучаемости подражать разным голосам. На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий.