В.Н.Сорокин, В.В.Вьюгин, А.А.Тананыкин
Распознавание
личности по голосу: аналитический обзор
Задача распознавания диктора по его
голосу была поставлена более 40 лет тому назад, и исследования в этой области все
еще продолжаются. Решение этой задачи может найти применение в криминалистике, радио-разведке, контр-разведке, антитерростическом
мониторинге, обеспечение безопасности доступа к физическим объектам, информационным
и финансовым ресурсам. В зависимости от конкретной задачи различают верификацию
и идентификацию диктора. В первом случае пользователь указывает свой идентификатор,
и требуется либо подтвердить его или отказать в подтверждении. Во втором случае
необходимо идентифицировать диктора среди множества других дикторов.
В большинстве работ
для распознавания диктора используются параметры в виде коэффициентов кепстра, который вычисляется по огибающей спектра, полученного
через преобразование Фурье, с помощью гребенки фильтров, либо по передаточной функции
речевого тракта, найденной методом линейного предсказания. В дополнение к
коэффициентам кепстра используются также их первые и вторые
разности по времени. Преимущество такого подхода заключается в вычислительной простоте,
а также в том, что в кепстре отражаются индивидуальные
характеристики голосового источника и анатомия речевого тракта. Вместе с тем, различительная
способность такого описания ограничена, и поэтому значительные усилия сконцентрированы
на разработке решающих правил. Наиболее популярны методы гауссовых смесей (GMM)
и опорных векторов (SVM). Используются также искусственные нейронные сети и скрытые
Марковские модели (HMM).
С целью сравнения различных методов распознавания диктора введен показатель равной ошибки (EER), определяющий ошибку распознавания при условии равенства вероятности пропуска самозванца и отказа законному пользователю. По результатам тестирования на одной и той же базе данных, регулярно проводимого в Национальном институте стандартов и технологий США (NIST), эта ошибка находится в диапазоне 3 – 5%, так что суммарная ошибка равна удвоенной величине, т.е. 6 – 10%.
КЛЮЧЕВЫЕ СЛОВА: распознавание диктора, верификация, идентификация, кепстр, преобразование Фурье, речевой тракт, индивидуальные характеристики голосового источника, анатомия речевого тракта