14 ene 2026·8 min

Diseño de una puntuación de riesgo de correo electrónico: una rúbrica sencilla basada en señales

Aprende a diseñar una puntuación de riesgo de correo electrónico combinando sintaxis, salud del dominio, indicadores de desechables y resultados previos en una rúbrica sencilla y usable.

Qué es una puntuación de riesgo de correo (y por qué podrías necesitarla)

Una puntuación de riesgo de correo es un número simple (o una etiqueta como baja, media, alta) que estima cuán probable es que una dirección de correo cause problemas para tu negocio. "Problemas" suele significar registros falsos, correos rebotados, quejas por spam, o usuarios a los que no puedes volver a contactar.

No es un veredicto sobre si alguien es “bueno” o “malo”. Es un resumen rápido y consistente de señales que ya tienes.

Una puntuación ayuda cuando el aprobado/rechazado es demasiado tajante. Muchas direcciones parecen válidas en la superficie pero aún así conllevan riesgo. Un correo puede tener sintaxis correcta y un dominio real, pero ser desechable, estar mal configurado o estar ligado a patrones que en el pasado llevaron a abuso.

Con una puntuación de riesgo puedes tomar decisiones consistentes sin convertir cada caso límite en un debate. Las acciones típicas son:

Permitir el registro y proceder normalmente
Permitir, pero añadir fricción (verificación por correo, CAPTCHA, límites)
Enviar a revisión manual para acciones de alto valor
Bloquear el registro o prevenir ciertas acciones

La explicabilidad importa. Los equipos no técnicos deben poder responder “¿Por qué esto fue de alto riesgo?”. Apunta a razones simples como “proveedor desechable”, “dominio no puede recibir correo” o “fallaron comprobaciones de dominio”.

Una manera sencilla de alinear a todos es vincular cada banda de puntuación a una política clara. Por ejemplo, 0-30 significa bajo riesgo y autoaprobación, 31-70 medio riesgo y requiere verificación, y 71-100 alto riesgo y bloquear o revisar. La meta no es un número perfecto, sino una decisión que puedas explicar, medir y ajustar.

Señales de correo para incluir: la lista práctica y corta

Empieza con un pequeño conjunto de señales que sean fáciles de explicar y difíciles de manipular. Siempre puedes añadir más después.

Comienza con comprobaciones estrictas de sintaxis. Esto es más que “tiene una @”. El parseo estilo RFC detecta partes faltantes, caracteres ilegales, puntos dobles y formatos complicados que muchos sistemas manejan mal. Las comprobaciones de sintaxis son baratas y detienen la basura obvia temprano, pero no te dicen si el buzón puede recibir correo.

A continuación, verifica la salud del dominio. Dos comprobaciones hacen la mayor parte del trabajo: ¿existe el dominio (DNS resuelve)? y ¿publica registros MX? MX no es perfecto (algunos dominios aceptan correo sin él), pero es una pista fuerte de alcanzabilidad. Un dominio nuevo sin configuración de correo suele ser de mayor riesgo al registro.

Las banderas de proveedores desechables importan más en la creación de cuentas. Los buzones desechables aparecen en el abuso de pruebas gratis, búsqueda de cupones y captación de leads falsos. No siempre necesitas bloquearlos, pero sí deberías puntuarlos.

También puedes incluir señales de reputación con cuidado. Las listas negras y los indicadores de spam-trap pueden reducir rebotes, pero hay falsos positivos. Trátalos como entradas de alta confianza sólo cuando tengan sentido, y prefiere acciones suaves (como verificación adicional) sobre bloqueos duros.

Por último, añade contexto que ya tienes. El correo por sí solo rara vez cuenta toda la historia. Entradas útiles incluyen de dónde vino el registro, velocidad inusual de registros, patrones repetidos y qué pasó con registros similares antes.

Ejemplo: durante una promoción, una dirección sintácticamente válida en un dominio sin MX, más una bandera de desechable y alta velocidad de registros es una señal más fuerte que cualquiera de esas comprobaciones por separado.

Define qué debe predecir la puntuación

Una puntuación de riesgo sólo funciona si todos coinciden en qué significa “riesgo”. Empieza por escribir la decisión que apoya. ¿Quieres bloquear registros malos, reducir rebotes o reducir carga de soporte? Si la puntuación intenta hacer todo a la vez, se volverá confusa y difícil de ajustar.

Separa riesgo de entregabilidad del riesgo de fraude

Están relacionados, pero no son lo mismo.

El riesgo de entregabilidad trata sobre si puedes alcanzar la dirección. Se mapea a resultados como rebotes permanentes, rebotes suaves repetidos o daño a la reputación del remitente.

El riesgo de fraude o abuso trata sobre el usuario detrás de la dirección. Se mapea a resultados como contracargos, abuso de cupones, cuentas falsas, reportes de spam o valor de por vida inusualmente bajo.

Puedes manejar esto de dos maneras simples: mantener dos puntuaciones separadas, o mantener una sola pero etiquetarla claramente (por ejemplo, “riesgo de abuso al registrarse”).

Define el resultado y el costo de los errores

Elige un resultado primario a predecir y añade secundarios después. Buenos objetivos iniciales incluyen:

“¿Rebotará este correo de registro dentro de 7 días?”
“¿Generará esta cuenta un evento de abuso dentro de 30 días?”
“¿Será este usuario de bajo valor (sin activación, sin compra) en 14 días?”

Luego decide cuánto te cuesta un falso positivo. Si bloqueas a un cliente real, pierdes ingresos y confianza. Si dejas pasar un registro riesgoso, puedes pagar con contracargos, tiempo de soporte o daño a la entregabilidad. Tu tolerancia a esos intercambios debe moldear los umbrales.

Finalmente, elige un rango de puntuación y qué significa. Una escala 0-100 es fácil de comunicar, pero sólo si defines bandas como 0-24 bajo riesgo, 25-59 medio, 60-100 alto. Vincula cada banda a una acción para que la puntuación sea más que un número.

Elige un modelo de puntuación que puedas explicar

Una puntuación es útil sólo si la gente confía en ella. Eso significa que deberías poder responder dos preguntas en palabras sencillas: ¿por qué recibió este registro esta puntuación? y ¿qué debemos hacer a continuación?

Una rúbrica por puntos suele ser el punto de partida más sencillo. Funciona como una checklist con una puntuación total y es fácil de escribir en un documento de políticas. Un promedio ponderado o un modelo pequeño puede ser más preciso, pero es más difícil de explicar cuando alguien pregunta “¿por qué fue bloqueado esto?”.

Aquí hay un enfoque de ponderación simple usando cuatro señales centrales. Mantén las matemáticas aburridas y los resultados claros:

Sintaxis y formato (0 a 10): errores obvios, caracteres inválidos, fallos de RFC
Salud del dominio (0 a 35): el dominio existe, DNS válido, sin señales evidentes de riesgo
Enrutamiento de correo (0 a 35): registros MX presentes y normales, sin fallos duros
Desechable y listas de riesgo (0 a 20): coincidencia con proveedor desechable, patrones malos conocidos, indicadores de spam-trap

Eso suma 100. En esta configuración, mayor puntuación = mayor riesgo.

Los datos faltantes ocurrirán, especialmente con timeouts de DNS o fallos temporales de búsqueda. Decide desde el inicio si “desconocido” debe ser neutral, ligeramente riesgoso o motivo para reintentar:

Trata un timeout como “desconocido” y reintenta una vez antes de puntuar
Si MX es desconocido después del reintento, asigna una pequeña penalización (por ejemplo, +10), no un fallo automático
Si el dominio claramente no existe, trátalo como fallo duro independientemente de otras señales

Calibra según tu producto. Un flujo de invitación B2B puede ser más estricto en salud de dominio y MX (se esperan correos corporativos). Un registro de consumo puede permitir más dominios gratuitos pero debe ser más duro con banderas de desechables.

Paso a paso: construye una rúbrica de puntuación simple

Una buena puntuación comienza haciendo comparables señales desordenadas. No intentes puntuar cada detalle. Convierte cada señal en pocos buckets claros que un compañero no técnico pueda reconocer y explicar.

1) Agrupa cada señal primero

Elige 3 a 4 buckets por señal. Por ejemplo: sintaxis (válida, cuestionable, inválida), salud del dominio (saludable, desconocido, roto), bandera de desechable (no, quizá, sí) y resultados históricos (historial bueno, mixto, malo). Mantén los nombres simples.

Después asigna puntos con un patrón simple: lo bueno obtiene pocos puntos, lo incierto puntos medios, lo malo puntos altos. Si los correos desechables son la principal fuente de abuso para ti, da a esa señal más peso que a raras faltas de sintaxis.

Un flujo práctico:

Convierte cada señal cruda en un bucket con reglas fijas
Asigna a cada bucket un valor en puntos (ej.: 0, 10, 25)
Suma los puntos en un total
Ajusta el total a un rango estable (como 0 a 100)
Guarda los buckets, puntos y la puntuación final para cada decisión

2) Mapea bandas de puntuación a acciones

La puntuación solo importa si produce una acción consistente. Mantén pocas bandas y obvias:

0-24: permitir registro
25-59: permitir, pero añadir un paso de verificación (OTP por correo, CAPTCHA o revisión manual para flujos de alto valor)
60-100: bloquear o requerir prueba más fuerte

El logging no es opcional. Guarda los buckets de entrada (no sólo la puntuación final) y la acción tomada. Si usas una API de validación de correo, almacena las salidas clave en las que te basaste para comparar luego las puntuaciones con resultados reales.

Una rúbrica concreta (suficientemente simple para un doc de políticas)

Construye una rúbrica explicable

Añade comprobaciones explicables en minutos y mantiene tu política de puntuación en tu app.

Obtener clave API

Una puntuación funciona mejor cuando es fácil de explicar a soporte, fraude y marketing. Comienza con 0 puntos (riesgo más bajo) y suma puntos cuando una señal aumenta la probabilidad de que la dirección rebote, sea falsa o lleve a abuso.

Tabla de ejemplo de puntuación

Señal (desde tus señales de validación de correo)	Regla	Puntos
Sintaxis	Compatible con RFC	+0
Sintaxis	Inválida o sospechosa (puntos extra, comillas incorrectas)	+40
Dominio existe	El dominio resuelve	+0
Dominio existe	NXDOMAIN / no resuelve	+30
Registros MX	MX presente	+0
Registros MX	Sin MX	+25
Bandera desechable	No es desechable	+0
Bandera desechable	Desechable / proveedor temporal	+35
Salud del dominio	Reputación normal del dominio remitente	+0
Salud del dominio	Recién visto o historial alto de quejas	+15
Resultados históricos	Rebotes pasados para este dominio/patrón de usuario	+20

Umbrales y acciones

Bajo riesgo (0-29): permitir registro
Riesgo medio (30-59): permitir, pero añadir fricción (verificación por correo, límites de tasa, revisión manual)
Alto riesgo (60+): bloquear o requerir pruebas fuertes (OTP más comprobaciones adicionales)

Guía para casos límite: si la sintaxis es válida y el dominio resuelve pero no hay MX, trátalo por defecto como riesgo medio, no como bloqueo automático. Algunos dominios están mal configurados temporalmente y no quieres rechazos falsos.

Para mantener la rúbrica estable al añadir nuevas señales, limita el impacto de cualquier nueva señal (por ejemplo, +10 a +15) y cambia umbrales sólo tras tener datos de resultados.

Escenario de ejemplo: puntuar registros durante una campaña

Una gran promoción puede cambiar tu tráfico de la noche a la mañana. Llegan más clientes reales, pero también atraes bots, buscadores de cupones y gente que usa direcciones desechables para obtener la oferta y desaparecer. Una puntuación de riesgo te ayuda a decidir quién puede registrarse sin fricción y quién debe enfrentar una comprobación extra.

Asume un rango de puntuación 0-100 (más alto = más riesgo). Ejecutas señales de validación (sintaxis, comprobaciones de dominio y MX, banderas desechables y tus propios resultados pasados) por un pipeline y luego asignas puntos.

Aquí hay dos registros de la misma campaña:

Email	Resumen de señales	Puntos	Total	Decisión
[email protected]	Sintaxis limpia, dominio resuelve, MX presente, no desechable, dominio con bajo historial de rebotes	+0, +0, +0, +0, +5	5	Permitir, sin fricción
[email protected]	Sintaxis ok, dominio resuelve, MX presente, marcado como desechable, dominio con alto historial de rebotes y quejas	+0, +0, +0, +40, +35	75	Añadir verificación

Para el segundo registro, “añadir verificación” puede ser ligero: OTP por correo, enlace mágico o exigir verificación antes de canjear la promo. No estás bloqueando a todos; añades obstáculos sólo donde las señales dicen que vale la pena.

Con el tiempo, ajusta pesos usando resultados reales, no suposiciones. Si los correos con bandera de desechable aún convierten y se mantienen activos, reduce esa penalización. Si un dominio específico sigue produciendo rebotes, contracargos o quejas, aumenta los puntos por historial del dominio.

Errores comunes y cómo evitarlos

Corta la creación de cuentas falsas

Bloquea correos desechables y patrones conocidos de abuso en la creación de cuentas.

Proteger Registros

La forma más rápida de perder confianza en una puntuación es tratar una sola señal como veredicto. Las señales de correo son desordenadas: las redes fallan, los dominios se malconfiguran y personas reales a veces usan direcciones que parecen sospechosas.

Error 1: tratar “desechable” como “siempre bloquear”

La detección de desechables es útil, pero no equivale a fraude. Si la sobreponderas, bloquearás a usuarios reales que sólo buscan privacidad o una prueba rápida. Un enfoque más seguro es puntuarla con fuerza y combinarla con contexto como velocidad de registros, intención de pago o si la dirección pasa comprobaciones de dominio y MX.

Error 2: convertir problemas DNS temporales en riesgo permanente

Los timeouts DNS ocurren. No puntúes un timeout igual que “el dominio no existe”. Mantén un bucket separado para “desconocido ahora”, reintenta una vez y sólo aumenta el riesgo ligeramente a menos que otras señales confirmen.

Error 3: apilar señales que no aportan información nueva

Es fácil contar dos veces la misma idea. Por ejemplo, “sin MX” y “falló verificación de dominio” pueden ser dos vistas del mismo problema. Si añades ambos con peso completo, inflas el riesgo sin mejorar la precisión. Elige la versión más clara o reduce pesos cuando las señales se solapan.

Error 4: dejar que la puntuación derive

A medida que las campañas cambian y los atacantes se adaptan, los pesos de ayer dejan de reflejar la realidad. Revisa resultados (rebotes, quejas, contracargos, tasas de activación) con regularidad y observa cambios bruscos.

Error 5: aprender de datos incorrectos

Mantén pruebas y staging separados. Datos semilla como [email protected], scripts de QA y dominios internos pueden contaminar tus resultados de “bueno vs malo”.

Lista práctica de prevención:

Separa “inválido” de “temporal/desconocido”
Limita el impacto de banderas desechables a menos que otras señales confirmen
Elimina o reduce peso de señales que se solapan
Monitorea métricas de resultado y re-ajusta con cadencia
Excluye tráfico no productivo de entrenamiento e informes

Cómo validar y afinar la puntuación usando resultados

Una puntuación sólo sirve si coincide con lo que ocurre después. Trátala como una predicción que puedes comprobar.

Empieza recogiendo resultados ligados al registro: entregado vs rebotado, quejas, abuso de cuenta, contracargos, flags de soporte y cualquier fraude confirmado.

Elige unas pocas bandas de puntuación (por ejemplo: Bajo, Medio, Alto) y revísalas con regularidad. Semanalmente suele ser suficiente al inicio; diario ayuda cuando ejecutas grandes campañas o cambias políticas.

Qué medir por banda de puntuación

Busca separación: lo de alto riesgo debe tener resultados claramente peores que lo de bajo riesgo. Rastrea un conjunto pequeño de métricas de forma consistente:

Tasa de rebote y rebote duro por banda
Eventos de abuso o fraude por banda (según cómo los definas)
Tasa de aceptación en revisión manual por banda (si haces revisión)
Porcentaje de registros en cada banda, para detectar cambios bruscos
Señales de valor posterior (activación, conversión a pago) si las tienes

Si las bandas son similares, tus señales no están aportando o tus umbrales están mal. Por ejemplo, si “Alto” tiene la misma tasa de rebote que “Bajo”, o sobreponderas señales inofensivas (como pequeñas faltas de sintaxis) o eres demasiado indulgente con señales fuertes (como detección de desechables).

Cómo afinar sin romper las cosas

Cambia una cosa a la vez y hazlo medible. El ajuste más seguro suele ser el umbral, no todo el modelo.

Ejecuta un A/B test (o un pequeño holdout) antes de desplegar nuevos cortes. Ejemplo: durante una semana, bloquea solo el 1% de registros más arriesgados en el grupo de prueba, mientras el control usa tu política actual. Compara rebotes, abuso y pérdida de buenos usuarios.

Lista rápida antes de lanzar la puntuación

La mayoría de los problemas en producción vienen de acciones poco claras, guardarraíles ausentes o entradas ruidosas.

Confirma que sólo puntúas direcciones que pasan reglas básicas de sintaxis (y trata errores obvios de forma consistente)
Verifica que el dominio es real y puede recibir correo, incluyendo MX (o tu equivalente elegido)
Decide cómo manejar proveedores desechables: bloquear, desafiar o permitir con límites
Define qué significa “riesgo de dominio” para tu app (dominios recién vistos, proveedores raros o historial malo)
Asegúrate de que cada señal pueda explicarse en una frase en logs y notas de soporte

Ahora mapea la puntuación a una acción. Si dos personas de tu equipo elegirían acciones diferentes para la misma puntuación, la política aún no está lista.

Si quieres una cuarta banda durante campañas, añádela explícitamente (y mantenla operativamente simple): muy alto riesgo puede ser limitado o bloqueado.

Detalles operativos: logging, explicabilidad y estabilidad

Mide resultados por banda de puntuación

Obtén salidas de validación consistentes que puedes registrar, revisar y afinar con el tiempo.

Probar Verimail

Una rúbrica sólo sirve si puedes operarla día a día. Trata la puntuación como cualquier otro sistema de decisión: registra lo suficiente para depurarlo, explícalo a humanos y mantén la estabilidad bajo tráfico real.

Empieza con logging para poder reproducir lo sucedido en cualquier registro. Captura las entradas crudas (resultado de sintaxis, comprobaciones dominio/MX, bandera desechable, cualquier coincidencia en listas negras), la puntuación final y la acción tomada (permitir, fricción, revisión, bloqueo). Guarda un request ID para que soporte encuentre la historia completa rápidamente.

Haz la puntuación explicable en palabras sencillas. Junto al número, guarda una cadena de razón breve que alguien pueda leer en cinco segundos. Por ejemplo: “Proveedor desechable + fallo de MX, puntuación 82, bloqueado.”

Estabilidad bajo tráfico real

Las comprobaciones de correo pueden fallar por razones ajenas al usuario. Planea para timeouts, reintentos limitados, límites de tasa y rutas de respaldo seguras. Si las comprobaciones fallan, devuelve un estado “desconocido” conservador en lugar de hacer que la puntuación fluctúe.

Privacidad y retención

Los logs de correo son sensibles. Conserva sólo lo necesario, restringe el acceso y fija una ventana de retención (por ejemplo, 30 a 90 días para señales crudas). Si necesitas análisis a más largo plazo, almacena agregados o identificadores hasheados en lugar de direcciones completas.

Próximos pasos: implementa, mide y mantenlo simple

Empieza pequeño. Tu primera puntuación debe ser una rúbrica clara que un compañero pueda leer y aplicar sin hoja de cálculo. Si no puedes explicar por qué un registro obtuvo 72 en lugar de 28, no confiarás en ello cuando importe.

Lanza unas pocas señales que entiendas y afina sólo tras tener resultados reales (rebotes, contracargos, reportes de abuso, activaciones exitosas). Mantén las acciones simples para que sean fáciles de ejecutar:

Bajo riesgo: permitir registro normalmente
Riesgo medio: añadir fricción ligera (verificación por correo o CAPTCHA)
Alto riesgo: requerir prueba más fuerte, limitar acciones o enviar a revisión

La implementación es más fácil cuando las señales principales llegan a un solo lugar. Por ejemplo, Verimail (verimail.co) proporciona una API de validación de correo que devuelve comprobaciones como validación de sintaxis compatible con RFC, verificación de dominio, búsqueda MX y coincidencias con desechables y listas negras en una sola respuesta. Usa esos resultados como entradas a tu rúbrica, y mantén las reglas de decisión en tu propia política para que sigan siendo fáciles de explicar y cambiar.

Una vez en producción, mídelo como una característica de producto. Registra la puntuación, la banda, la decisión que tomaste y el resultado que observaste después. Revisa una pequeña muestra de falsos positivos (bloqueados pero legítimos) y falsos negativos (permitidos pero dañinos) y ajusta una regla a la vez. La versión más simple que monitorizas y actualizas vence a un modelo complejo que nadie puede explicar.

Preguntas frecuentes

What is an email risk score in plain terms?

Una puntuación de riesgo de correo es un resumen rápido de cuán probable es que una dirección cause problemas como rebotes, registros falsos o abuso. Te ayuda a tomar decisiones consistentes cuando una comprobación simple de “correo válido” no es suficiente.

How is a risk score different from basic email validation?

La validación de correo responde “¿puede esta dirección probablemente recibir correo?” mientras que una puntuación de riesgo responde “¿qué tan arriesgado es aceptar este registro ahora mismo?” Una dirección puede parecer entregable pero puntuar como riesgosa porque es desechable o coincide con patrones asociados a abuso.

Which signals should I include first when building a score?

Empieza con un conjunto pequeño y fácil de explicar: resultados de sintaxis estilo RFC, si el dominio resuelve, si hay registros MX y si la dirección coincide con proveedores desechables conocidos. Añade resultados históricos después de tener datos sobre lo que ocurre tras el registro.

How do I choose thresholds like “low, medium, high” risk?

Usa unas pocas bandas claras vinculadas a acciones, por ejemplo permitir, permitir con verificación y bloquear o revisar. Mantén las bandas estables al principio y ajusta los umbrales según resultados observados como tasa de rebote, quejas o eventos de abuso.

How do I make the score explainable to non-technical teams?

Guarda cadenas de razón simples junto a la puntuación, como “proveedor desechable” o “dominio no puede recibir correo”. Si un compañero no puede responder “¿por qué bloqueamos esto?” en una frase, el modelo es demasiado complejo para operar.

What should I do when DNS or MX checks time out?

Trata los timeouts como “desconocido” y vuelve a intentar una vez antes de puntuar. Si sigue desconocido, añade una pequeña penalización en lugar de tratarlo como una falla absoluta, porque problemas DNS temporales no deben marcar permanentemente a usuarios reales como de alto riesgo.

Should I block disposable emails or just score them?

La detección de desechables es muy útil, pero no debería implicar automáticamente “bloquear”. Un enfoque común es aumentar la puntuación y requerir verificación por correo o limitar acciones de alto valor, y luego ajustar según tus datos de conversión y abuso.

Do I need separate scores for deliverability risk and fraud risk?

El riesgo de entregabilidad trata sobre la capacidad de llegar al buzón y los rebotes; el riesgo de fraude trata sobre el comportamiento dañino del usuario (contracargos, abuso de cupones, cuentas falsas). Si los mezclas sin etiquetar, los equipos discutirán su significado, así que mantén dos puntuaciones separadas o nombra claramente el propósito de la única puntuación.

What should I log, and how do I handle privacy for email scoring?

Registra las entradas que usaste, la puntuación final, la banda, la acción tomada y una breve razón para poder depurar decisiones después. Limita la retención y el acceso porque los registros de correo son sensibles; considera almacenar sólo lo necesario o identificadores hasheados para análisis a largo plazo.

How do I validate and tune the score after it’s live?

Afina usando resultados reales: comprueba si los registros de alto riesgo realmente muestran peores tasas de rebote o abuso que los de bajo riesgo. Cambia una cosa a la vez (a menudo sólo el umbral) y compara con un pequeño grupo de control o test A/B para ver la compensación entre bloqueos falsos y abuso prevenido.