Ya es posible detectar voces generadas por IA desde el navegador

A día de hoy hace falta una muestra de tan solo 3 segundos de audio para clonar una voz. Es un intervalo tan corto que cuesta incluso visualizarlo —¿cuántas palabras caben en 3 segundos?—. Y sin embargo, la IA ha conseguido convertirlo en algo útil, valioso; aunque también, llegado el caso, peligroso. La prueba es el número creciente de intentos de suplantación de identidad y fraude a particulares y empresas usando deepfakes de voz, y las dificultades para identificarlos, dada su cada vez mayor precisión y verosimilitud.
En ese espacio es el que se sitúan soluciones como el detector de voz IA que acaba de lanzar NordVPN. La empresa de ciberseguridad ha incorporado esta funcionalidad a su extensión en el navegador Chrome, ofreciendo a sus usuarios un método para identificar en tiempo real voces sintéticas mientras navegan por internet.
“El nuevo detector de voz IA añade una capa adicional de protección al ayudar a los usuarios a evaluar si el audio que escuchan en la pestaña activa del navegador ha sido generado por una persona o por inteligencia artificial”, ha explicado Domininkas Virbickas, director de producto de NordVPN, en declaraciones a Applicantes.
“La herramienta elimina la necesidad de tener que adivinar la autenticidad de los contenidos de audio en internet y contribuye a reducir algunos de los riesgos online asociados a la IA”.
Una IA para destapar a la IA
La función analiza el audio que se reproduce en cualquier pestaña activa en tiempo real para determinar si la voz que se está escuchando es humana o sintética. Utiliza una red neuronal para escanear tanto el sonido de piezas pregrabadas, como pueden ser un podcast o un vídeo, como las voces que se producen en videollamadas y emisiones en directo. Todo ello, sin interferir en el audio, que sigue reproduciéndose con normalidad para el usuario.
Este último puede ver el resultado de esa evaluación en la ventana de la extensión y en una notificación que aparece en la misma página web. Se emplea un código de color:
- Verde para indicar que se trata de una voz humana
- Rojo para voces generadas por IA
- Ámbar en aquellos casos dudosos pero que se sospecha pueden ser sintéticos

La empresa asegura que el detector de voz IA no escucha el audio propiamente dicho; es decir, no comprende, graba ni interpreta el contenido. Realiza el análisis de audio basándose exclusivamente en las características de la señal acústica.
Tampoco accede a la identidad del usuario, su historial de navegación, cookies ni información de su cuenta. Además, si se detiene el proceso o se cierra la pestaña, todos los datos de audio se eliminan de inmediato. Y hace todo ese trabajo en local, sin enviar el audio a servidores externos, lo que, según Virbickas, “añade seguridad sin comprometer la seguridad de los usuarios”.
El modelo ha sido entrenado con un conjunto de datos compuesto por 32.000 muestras de audio reales y generadas por IA.
Preguntado por la fiabilidad de la herramienta, el director de producto de NordVPN ha recordado que “ningún modelo de detección es 100% preciso en todos los tipos de voz, acentos y condiciones de audio». Por eso, ha afirmado, la empresa sigue trabajando para ampliar la cobertura de la herramienta.











