AI від Microsoft навчили імітувати будь-який людський голос

Microsoft презентувала штучний інтелект VALL-E, який навчили імітувати будь-який людський голос за допомогою трисекундного аудіо зразка.

VALL-E побудована на основі технології EnCodec. AI генерує окремі коди аудіокодеків із текстових і акустичних підказок: аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти («токени») завдяки EnCodec і використовує навчальні дані, щоб узгодити те, що він «знає» про те, як цей голос звучатиме, якби він вимовляв інші фрази.

VALL-E може імітувати тембр та манеру мови зі збереженням емоційного тону мовця та акустичного середовища.

Microsoft навчила можливості синтезу мовлення VALL-E на аудіотеці LibriLight, зібраній Meta. Він містить 60 000 годин мовлення англійською з понад 7 000 носіїв.

Microsoft презентувала штучний інтелект VALL-E, який навчили імітувати будь-який людський голос за допомогою трисекундного аудіо зразка.

У нас є ще дещо для вас