Los actuales algoritmos de reconocimiento del habla funcionan
bien cuando se eliminan los ruidos de fondo o cuando se utilizan auriculares
bien sintonizados, pero su exactitud rápidamente se distorsiona cuando las
aplicaciones tienen que lidiar con ambientes ruidosos, como los lugares
públicos.
Combinado con los algoritmos de detección de rostros de la
biblioteca OpenCV de visión para computadoras de Intel, el
software de
Reconocimiento Audio/ Visual del Habla (Audio Visual Speech Recognition o
AVSR) hace que las computadoras puedan detectar el rostro de la persona que
habla y rastrear los movimientos de su boca. El sincronizar los datos de video
con la identificación del habla permite un reconocimiento más exacto del habla,
mejorando así una amplia variedad de aplicaciones en ambientes ruidosos. El
software de AVSR es parte de la biblioteca OpenCV de visión para computadoras de
Intel, un conjunto de herramientas de más de 500 funciones de imagen que ayuda a
los desarrolladores a desarrollar aplicaciones de visión para computadoras.
Acelerar la investigación de nuevos usos
Los microprocesadores más veloces, la caída en el precio de las cámaras y el
ancho de banda para la captura de video diez veces mayor que ofrecen tecnologías
como USB2 están haciendo posible que los algoritmos de visión para computadoras
en tiempo real puedan funcionar en PCs convencionales. El OpenCV está diseñado
para aumentar la innovación en esta área mediante el suministro de código fuente
para una amplia gama de funciones de imagen y visión para computadoras. Desde su
lanzamiento en el 2000, OpenCV ha visto más de 500.000 descargas de código y ha
atraído a más de 5.000 miembros registrados a su grupo de usuarios.
Los desarrolladores están utilizando el
código de OpenCV en aplicaciones que van desde juguetes hasta la fabricación
industrial. El software incluye el código fuente C para toda la funcionalidad de
la biblioteca y una licencia de redistribución libre de pago de royalties.