Компьютер научился читать по губам?

Ученые из университета Аст-Англии представили в Шанхае на конференции ICASSP компьютерную систему, способную читать человеческую речь по движению губ, передает www.newsru.com.

Разработанная исследователями программа анализирует видео, захватываемое с помощью камер. Речь человека была разделена на две составляющие – фонемы и виземы, которые представляют собой визуальный эквивалент фонем. При этом оказалось, что фонем больше, чем визем, для системы распознания потребовалась двухуровневая иерархическая система.

Сначала ученые обучали классификаторы соотносить виземы со звуками, затем количество классификаторов было увеличено с тем, чтобы каждой виземе соответствовало несколько фонем.

Эффективность созданной системы пока невелика. При распознании непрерывной речи машина понимает точно 10–15% сказанного, когда произносятся отдельные фонемы, этот показатель возрастает до 25%. Ученые надеются усовершенствовать систему, чтобы применять ее в ситуациях, когда голоса на записи плохо слышны или аудиодорожка испорчена. Компьютерное чтение по губам также может быть востребовано в криминалистике.

Читайте также