VALL-E побудована на основі технології EnCodec. AI генерує окремі коди аудіокодеків із текстових і акустичних підказок: аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти («токени») завдяки EnCodec і використовує навчальні дані, щоб узгодити те, що він «знає» про те, як цей голос звучатиме, якби він вимовляв інші фрази.
VALL-E може імітувати тембр та манеру мови зі збереженням емоційного тону мовця та акустичного середовища.
Microsoft навчила можливості синтезу мовлення VALL-E на аудіотеці LibriLight, зібраній Meta. Він містить 60 000 годин мовлення англійською з понад 7 000 носіїв.
Мінцифра запустила YouTube-проєкт про стартапи України
Запускають нову платформу для забезпечення житлом постраждалих від війни
NASA хоче використовувати ядерні двигуни для місій на Марс
Український застосунок для тренування мозку завантажували найчастіше у світі за 2022 рік
Мінцифра та Prometheus презентували безоплатний курс про створення та розвиток стартапів
Історичний центр Одеси відтепер під захистом ЮНЕСКО