Como Funciona el Detector de Voz
Entiende el proceso completo de como nuestra herramienta analiza descripciones de audio para detectar voces clonadas y audio sintetico generado por IA.
1. Recepcion de la Descripcion
Cuando describes el audio que quieres analizar, nuestro sistema procesa la informacion buscando indicadores clave. Puedes describir caracteristicas como el tono de la voz, la presencia o ausencia de pausas naturales, la calidad del sonido, el contexto de la grabacion, o simplemente pegar la transcripcion del audio.
El motor analiza tanto la informacion explicita (lo que describes directamente) como la informacion implicita (lo que no se menciona pero deberia estar presente en una voz humana real).
2. Analisis de Indicadores
Nuestro motor de IA evalua seis dimensiones criticas que diferencian una voz humana real de una voz clonada o sintetica:
Prosodia
Variaciones naturales de entonacion, acento y ritmo del habla que las voces clonadas no logran replicar perfectamente.
Respiracion
Pausas de respiracion, suspiros y microdescansos vocales que son indicadores fundamentales de habla humana genuina.
Artefactos
Ruido ambiental, variaciones de volumen y eco natural que las voces sinteticas suelen eliminar por completo.
3. Generacion del Veredicto
Basandose en el analisis multidimensional, el sistema genera una puntuacion de 0 a 100 y un veredicto claro. Una puntuacion de 0-30 indica "Voz Real" con alta confianza, 31-65 marca la voz como "Sospechosa" requiriendo investigacion adicional, y 66-100 senala "Voz Clonada" con indicadores claros de generacion artificial.
Ademas de la puntuacion, recibes un analisis detallado en espanol que explica exactamente que indicadores se encontraron y por que el sistema llego a esa conclusion.
4. Mejores Practicas para Descripciones
Para obtener los mejores resultados, incluye detalles sobre: la calidad general del audio (limpio, con ruido, eco), las caracteristicas de la voz (tono, velocidad, emocion), las pausas y respiraciones (presentes, ausentes, naturales), el contexto (llamada telefonica, mensaje, video) y cualquier elemento que te haya parecido sospechoso. Cuanto mas detallada sea la descripcion, mas preciso sera el analisis.
Preguntas Frecuentes
El sistema analiza cuatro capas del audio: espectrograma mel (patrones de frecuencia y armonicos), prosodia (ritmo, entonacion y pausas naturales), microfluctuaciones de pitch (las voces humanas tienen variaciones sutiles que la IA no replica perfectamente) y consistencia temporal. Un modelo neuronal entrenado con mas de 100.000 muestras clasifica estas metricas.
Nuestro detector identifica audios generados por ElevenLabs, XTTS, Bark, Tortoise TTS, Microsoft VALL-E, Google WaveNet y la mayoria de los sistemas de sintesis comerciales. El modelo se actualiza regularmente para cubrir nuevas herramientas.
Si. Audios con alta compresion (bitrate menor a 64 kbps), ruido de fondo excesivo o grabaciones de baja calidad reducen la precision. Recomendamos archivos con bitrate minimo de 128 kbps y relacion senal-ruido superior a 20 dB para resultados optimos.
Si. A diferencia de los detectores de texto, la deteccion de voz sintetica se basa en caracteristicas acusticas universales (espectro, prosodia, microfluctuaciones) que son independientes del idioma. Nuestro modelo funciona con audios en espanol, ingles, portugues, frances y cualquier otro idioma.
No. El archivo de audio se procesa en memoria volatil, se analiza y se elimina inmediatamente. No almacenamos, escuchamos ni reutilizamos ningun audio enviado. Solo registramos metadatos anonimos como formato, duracion y puntaje.
Si, siempre que dispongas de una grabacion. La deteccion no puede aplicarse en tiempo real sobre una llamada en curso (esa funcion esta en desarrollo), pero si grabas la conversacion y subes el archivo, el detector analiza las caracteristicas acusticas para determinar si la voz fue sintetizada o clonada.