VALL-E побудована на основі технології EnCodec. AI генерує окремі коди аудіокодеків із текстових і акустичних підказок: аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти («токени») завдяки EnCodec і використовує навчальні дані, щоб узгодити те, що він «знає» про те, як цей голос звучатиме, якби він вимовляв інші фрази.
VALL-E може імітувати тембр та манеру мови зі збереженням емоційного тону мовця та акустичного середовища.
Microsoft навчила можливості синтезу мовлення VALL-E на аудіотеці LibriLight, зібраній Meta. Він містить 60 000 годин мовлення англійською з понад 7 000 носіїв.
Український дизайнер Артем Гусєв запускає креативну лабораторію
У соцмережах Meta з’явилися AI-персонажі для чат-ботів
Netflix закриває сервіс прокату DVD-дисків
В Амстердамі відкрили виставку з покемонами у художньому стилі Ван Гога
Prometheus запускає стипендії для тих, хто хоче опанувати IT-професії
Українські художники розігрують свої картини за донат