INTELIGENCIA ARTIFICIAL: RECONOCIMIENTO DE VOZ

¿QUÉ ES EL RECONOCIMIENTO DE VOZ?

El reconocimiento de voz es una de las formas de comunicación con las máquinas que se está sobreponiendo con mas fuerza a otras formas de interacción más tradicionales, sobre todo los botones físicos, aunque también está desplazando a la funcionalidad táctil en algunos casos.

El reconocimiento por voz es una tecnología biométrica que utiliza
la voz de un individuo para lograr su identificación.

El reconocimiento por voz es una tecnología biométrica que utiliza la voz de un individuo para lograr su identificación.

El proceso de la identificación de personas a través del reconocimiento de voz depende de diversas características del individuo: por un lado está la estructura física del tracto vocal; por otro se encuentran ciertas características de comportamiento. En el momento del proceso de identificación se ha de tener muy en cuenta la variabilidad que posee la señal de voz, pues el individuo no puede repetir de forma completamente exacta una misma palabra o frase.

Existen dos formas principales de realizar el reconocimiento por voz, dependiendo de si el sistema es dependiente de un texto (una contraseña o una fase programada dentro del sistema), o es independiente de este.

Funcionamiento del sistema

Una vez se ha obtenido la señal de voz, esta se ha de procesar para obtener de forma eficiente la información presente en la señal acústica. Esta información es almacenada en un vector de características biométricas.

Tras la obtención del vector de características biométricas, se realiza una comparación de 1:N con aquellos almacenados en la base de datos para obtener la similitud entre el vector obtenido en ese momento y cada uno de los vectores almacenados. Esta comparación se realiza en el llamado Módulo de Cálculo de Similitudes, y proporciona como resultado una matriz de coincidencias.

La última fase del proceso de reconocimiento de voz, aquella que corresponde con la toma de decisiones, es la de mayor criticidad dentro del sistema. Con la matriz de coincidencias debe decidir sobre la identidad del individuo que ha generado la señal de voz.

Debilidades del sistema

Aunque el reconocimiento por voz puede ser una buena opción para resolver problemas de identificación debido sobre todo a su fácil implementación, se ha de tener en cuenta la posible susceptibilidad al canal de transmisión y a las variaciones del micrófono o del ruido que se pueda generar dentro del canal de transmisión, que puede dar lugar a un aumento de la tasa de falsos negativos.

Google Cloud Speech

Transcripción de voz de Google Cloud es una API fácil de usar que permite a los desarrolladores convertir audio en texto fácilmente gracias a la aplicación de potentes modelos de redes neuronales. Esta API reconoce 120 idiomas y variantes para ayudarte a gestionar tu base de usuarios internacional y, entre otras cosas, permite habilitar el control por comandos de voz o transcribir las conversaciones de los centros de llamadas. Además, utiliza la tecnología del aprendizaje automático de Google para procesar audios grabados previamente o en tiempo real.

Siri

Siri es una inteligencia artificial con funciones de asistente personal a veces con su propia personalidad para iOS, macOS, tvOS y watchOS. Esta aplicación utiliza procesamiento del lenguaje natural para responder preguntas, hacer recomendaciones y realizar acciones mediante la delegación de solicitudes hacia un conjunto de servicios web que ha ido aumentando con el tiempo. Esta aplicación para iOS es el primer producto lanzado al público de SRI venture group, un grupo de desarrollo de software enfocado en aplicaciones de inteligencia virtual. Siri fue adquirida por Apple Inc. el 28 de abril de 2010.

Cortana

Cortana es un asistente virtual creado por Microsoft para Windows 10,Windows 10 Movile , Windows Phone 8.1, Altavoz inteligente Invoke, Microsoft Band, Xbox One, iOS, Andoid y Amazon Alexa.

Cortana puede establecer recordatorios, reconocer voz natural sin la necesidad de ingresar el teclado y responder preguntas utilizando información del motor de búsqueda de Bing.

Cortana está actualmente disponible en inglés, portugués, francés, alemán, italiano, español, chino y japonés, dependiendo de la plataforma de software y la región en la que se utiliza.

INTELIGENCIA ARTIFICIAL

RECONOCIMIENTO DE VOZ

¿QUÉ ES EL RECONOCIMIENTO DE VOZ?

3 comentarios:

Vistas de página en total