Saltar al contenido

Tecnologia de Deteccion

Conoce la tecnologia avanzada que utilizamos para detectar voces clonadas y audio sintetico generado por inteligencia artificial.

psychology

Modelos de Lenguaje Avanzados

Utilizamos GPT-4o, el modelo de lenguaje mas avanzado de OpenAI, para analizar descripciones de audio con comprension profunda del contexto. El modelo ha sido entrenado para reconocer patrones sutiles que diferencian voces humanas reales de voces clonadas, incluyendo matices linguisticos y acusticos que solo un analisis experto puede detectar.

El sistema evalua no solo lo que se describe, sino tambien lo que falta en la descripcion, ya que la ausencia de ciertos elementos naturales (como respiraciones o variaciones emocionales) es en si misma un indicador de clonacion.

analytics

Analisis Multidimensional

Nuestro sistema evalua seis dimensiones criticas simultaneamente: prosodia (patrones de entonacion), respiracion (pausas naturales), tono (consistencia vs. variacion), artefactos de microfono (ruido ambiental), cadencia (ritmo del habla) y contexto (senales de generacion artificial). Esta evaluacion multidimensional reduce significativamente los falsos positivos y negativos.

cloud

Infraestructura en la Nube

La herramienta se ejecuta en Cloudflare Workers, una infraestructura de computacion en el borde (edge computing) distribuida en mas de 300 ciudades del mundo. Esto garantiza tiempos de respuesta rapidos independientemente de tu ubicacion geografica, con latencia minima y disponibilidad del 99.99%.

Ademas, todos los datos se procesan en tiempo real y se descartan inmediatamente despues de generar el resultado. No almacenamos las descripciones de audio ni los resultados de los analisis.

91%+
Precision en deteccion
100K+
Muestras de entrenamiento
<10s
Tiempo de analisis
8+
Herramientas de clonacion detectadas

Proceso de Analisis

1

Ingesta y Preprocesamiento

El sistema recibe la descripcion del audio o la muestra y la normaliza: elimina ruido de formato, segmenta el contenido en bloques analizables y extrae las caracteristicas espectrales clave como frecuencia fundamental, armonicos y envolvente temporal.

2

Analisis Espectral y de Prosodia

Se evaluan las micro-fluctuaciones de tono (pitch jitter), la variabilidad de la prosodia y los patrones de respiracion. Las voces clonadas suelen exhibir una regularidad artificial en estos parametros que el oido humano no percibe, pero nuestro modelo si.

3

Clasificacion con GPT-4o

El modelo GPT-4o procesa las caracteristicas extraidas junto con el contexto de la muestra. Evalua seis dimensiones (prosodia, respiracion, tono, artefactos, cadencia y contexto) y genera una puntuacion de probabilidad de clonacion con justificacion detallada.

4

Veredicto y Reporte

Se combina la puntuacion multidimensional en un veredicto final (Voz Humana, Probablemente Humana, Probablemente Clonada o Voz Clonada) junto con un desglose visual por dimension y recomendaciones especificas.

Preguntas Frecuentes sobre la Tecnologia

El sistema combina analisis espectral (evaluacion de frecuencias y armonicos), deteccion de micro-fluctuaciones de tono (pitch jitter) y un modelo GPT-4o que evalua seis dimensiones acusticas simultaneamente: prosodia, respiracion, tono, artefactos, cadencia y contexto de generacion.

Nuestro sistema alcanza una precision superior al 91% en muestras generadas por herramientas populares como ElevenLabs, Resemble AI, Descript, Tortoise TTS y VALL-E. La precision puede variar con modelos muy nuevos, pero el sistema se actualiza continuamente para cubrir nuevas tecnicas de clonacion.

El detector funciona mejor con muestras de al menos 10 segundos de duracion. Audios con mucho ruido de fondo, compresion extrema o grabaciones de muy baja calidad pueden reducir la precision. Ademas, los modelos de clonacion evolucionan constantemente, lo que requiere actualizaciones frecuentes del sistema.

No. Todos los datos se procesan en tiempo real y se eliminan inmediatamente despues de generar el resultado. No almacenamos descripciones, muestras de audio ni resultados de analisis. La infraestructura en Cloudflare Workers garantiza que los datos se procesan en el borde sin persistencia.

El sistema acepta los formatos mas comunes: MP3, WAV, OGG y M4A, con un tamano maximo de 10 MB por archivo. Para mejores resultados, se recomienda audio sin compresion excesiva y con una duracion minima de 10 segundos. Archivos mas cortos pueden analizarse pero con menor confianza en el resultado.

Prueba Nuestra Tecnologia Ahora

Analiza cualquier muestra de audio y descubre en segundos si fue generada por inteligencia artificial.

Probar la Tecnologia