Фото: YAY/ТАСС/Daniel Wiedemann
Ученые из университета Ист-Англии создали систему машинного обучения, которая умеет читать по губам, сообщает пресс-служба университета. Работа была представлена на конференции ICASSP в Шанхае.
Система, созданная программистами Хелен Бир и Ричард Харви, следит за речью при помощи видеокамеры. Для обучения ее классификаторов авторы работы использовали скрытую марковскую модель, которая с 1970-х годов используется для распознавания речи, а также в криптоанализе и машинном переводе. Также ученые разработали новый метод.
Бир и Харви разделили речь на две составляющие: фонемы и виземы – визуальные воплощения фонем. Основная сложность заключалась в том, что фонем в речи больше, чем визем. Например, движения губ при произнесении фонем "п", "б" или "м" в полной тишине отличить очень сложно. Чтобы сделать систему более эффективной, ученым пришлось создать двухуровневую иерархическую структуру.
Работоспособность системы специалисты проверяли на двух моделях. Первая подразумевала распознавание непрерывной речи, а вторая – распознавание отдельных фонем. В обоих случаях процент успеха пока невелик – слова система распознает с точностью до 10–15 процентов, фонемы – до 25 процентов. Ученые отмечают, что это значительное продвижение по сравнению с прошлыми результатами, и планируют дальнейшее усовершенствование.
"Система чтения по губам может быть применена для различных целей, от криминалистики до развлечения", – говорит Хелен Бир. Она уверена, что наибольшую пользу их продукт может принести там, где нужно распознать речь среди сильного шума, например, в салоне гоночного автомобиля или кабине пилота.