Google ha creado una nueva tecnología para potenciar su búsqueda por voz, que según la compañía lo hará aún más rápido y más preciso. La nueva tecnología utiliza la Clasificación Temporal Connectionist (CTC) y técnicas de entrenamiento discriminativo de secuencia. En 2012, Google cambió de Gaussian Mixture Model (GMM) a Deep Neural Networks (DNNs), lo que permitió a la compañía evaluar mejor qué sonido estaba produciendo un usuario en ese momento, y entregó una mayor precisión de reconocimiento de voz.
Nuestros modelos acústicos mejorados se basan en redes neuronales recurrentes (RNN). Los RNN tienen bucles de retroalimentación en su topología, lo que les permite modelar dependencias temporales: cuando el usuario habla / u / en el ejemplo anterior, su aparato articulador proviene de un sonido / j / y de un sonido / m / antes. Intenta decirlo en voz alta - "museo" - fluye de forma muy natural de una sola vez, y los RNN pueden capturar eso. El tipo de RNN utilizado aquí es un RNN de memoria a corto plazo (LSTM) que, a través de las celdas de memoria y un sofisticado mecanismo de activación, memoriza mejor la información que otros RNN. La adopción de estos modelos ya mejoró significativamente la calidad de nuestro reconocedor.
El cambio en la tecnología ha sido realizado por Google, y ahora se está utilizando para potenciar las búsquedas por voz en la aplicación Google en iOS y Android, así como el dictado en dispositivos Android.
Fuente: Blog de Google Research