Технология разработана в Кембридже исследовательской лабораторией Mitsubishi Electric. Система использует машинное обучение, чтобы идентифицировать уникальные «голосовые отпечатки» разных людей. Затем искусственный интеллект разделяет голоса и восстанавливает речь каждого человека.
«Система была натренирована с помощью 100 англоязычных голосов, но она также может различить голос спикера, говорящего на японском», — представитель Mitsubishi Electric Нильс Мейнке (Niels Meinke).
ИИ различает и реконструирует речь двух людей, говорящих в один микрофон, с точностью до 90%. При наличии трёх спикеров точность падает до 80%. В обоих экспериментах система ранее не слышала голоса говорящих.
Новая технология могла бы помочь голосовым ассистентам лучше выполнять свои функции. ИИ также может использоваться правоохранительными органами для восстановления записей разговоров с шумовыми помехами, например, с музыкой на фоне.
В предварительных тестах система сумела разделить голоса пяти говорящих человек одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах и кондиционерах, которые являются источниками шума.
Стань digital-аналитиком за 16 недель!
Cossa рекомендует один из лучших российских онлайн-курсов по веб-аналитике и аналитике User eXperience. Прокачай своего внутреннего аналитика по программе от AIС – digital-студии номер один в России.
Записывайтесь на курс! Старт ближайшего потока — уже 27 октября.
Реклама
Ранее мы писали об искусственном интеллекте, который распознаёт протестующих в толпе даже с частично скрытыми лицами.