Definiendo las principales métricas de precisión de los sistemas biométricos

Durante la evaluación de sistemas basados en la biometría, uno de los primeros pasos consiste en definir las principales métricas de precisión. Se trata de un paso importante que nos ayuda a evaluar si el comportamiento de nuestro sistema se corresponde con nuestras expectativas. Las puntuaciones de verificación miden las diferencias entre dos muestras biométricas dadas y normalmente se dan de 2 formas: a) similitud: cuanto más alta, más probable es que pertenezcan a la misma identidad, y b) distancia: cuanto más baja, más probable es que pertenezcan a la misma identidad. Partiendo de este concepto básico, en este artículo repasaremos ciertas métricas clave para entender cómo se evalúan los sistemas biométricos.
Matching Score Distribution: Es una visualización simple pero efectiva del rendimiento del clasificador que muestra la distribución de accesos genuinos e impostores con respecto a la puntuación de coincidencia. Normalmente incluye el umbral de verificación estimado.
FMR – False Match Rate: Estimación empírica de la probabilidad (porcentaje de veces) en que el sistema acepta incorrectamente que una muestra biométrica pertenece a la identidad declarada cuando en realidad la muestra pertenece a un sujeto diferente (impostor). Esta métrica es un error de verificación de nivel algorítmico.
Del mismo modo, dado un vector de puntuaciones de Ni impostor, v, la tasa de falsas coincidencias (FMR) se calcula como la proporción por debajo de cierto umbral, T
donde H(x) es la función escalón unitario, y H(0) se toma como 1.
FNMR – False Non-Match Rate: Estimación empírica de la probabilidad (porcentaje de veces) en que el sistema rechaza incorrectamente una identidad declarada cuando la muestra pertenece realmente al sujeto de confianza (genuino). Esta métrica es un error de verificación de nivel algorítmico.
Dado un vector de puntuaciones genuinas Ng, u, la tasa de no coincidencia falsa (FNMR) se calcula como la proporción por encima de cierto umbral, T :
FAR/FRR – False Acceptance/Rejection Rate: FAR y FMR se utilizan a menudo indistintamente en la literatura, como FNMR y FRR. Sin embargo, su sutil diferencia es que FAR y FRR son errores a nivel de sistema que incluyen muestras que no se adquirieron o compararon. Los errores de verificación a nivel de sistema requieren la observación de:
a) FTC – Failure To Capture: durante la generación de la muestra, aparece cuando el sistema no es capaz de capturar la muestra. Es el porcentaje de veces que el sistema biométrico falla en la captura de la característica biométrica. Este porcentaje de FTC sólo es aplicable cuando el sistema dispone de una funcionalidad de captura automática para «contabilizar» dicho fallo. El fallo de captura puede provenir del propio dispositivo (por ejemplo, problemas H/W) o de la persona «portadora» de la característica biométrica (por ejemplo, huellas dactilares extremadamente débiles),
b) FTE – Failure To Enrol: cuando no existe ninguna referencia al respecto. Porcentaje de veces que los usuarios no pueden inscribirse en el sistema (proporción de intentos fallidos de generación de plantillas). Estos errores suelen producirse cuando el sistema rechaza características de entrada mal capturadas durante la fase de inscripción o porque el software se niega selectivamente a procesar la imagen de entrada (el software debería lanzar una excepción): esto ocurriría normalmente si no se detecta un rostro. Lo ideal sería que la base de datos sólo contuviera muestras de buena calidad de los datos biométricos, y
c) FTA – Failure To Acquire: cuando no hay vector de características de la sonda.
Threshold for Specific Working Points: El umbral, T , puede tomar cualquier valor. Normalmente generamos un conjunto de umbrales a partir de cuantiles de las puntuaciones de impostores observadas, v, de la siguiente manera. Dado un rango interesante de tasa de falsas coincidencias, formamos un vector de K umbrales correspondientes a mediciones de RMF espaciadas uniformemente en una escala logarítmica
donde Q es la función cuantil.
Obsérvese que los valores FAR aumentan monotónicamente cuando aumenta el umbral de verificación, mientras que los valores FRR hacen exactamente lo contrario. Por lo tanto, no es posible minimizar los dos índices de error simultáneamente.
EER – Equal Error Rate: La velocidad a la que la FMR es igual a la FNMR (independiente del umbral).
donde
garantiza que el umbral encontrado satisfará la condición de igualdad entre FNMR y FMR lo más fielmente posible
HTER – Half Total Error Rate: HTER se define como la media de FNMR y FMR (dependiente del umbral), es decir:
ROC – Receiver Operating Characteristic curve: Gráfico de la tasa de falsos positivos (es decir, intentos de impostor aceptados) en el eje y frente a la tasa correspondiente de verdaderos positivos (es decir, intentos auténticos aceptados) en el eje x, trazada paramétricamente en función del umbral de decisión. También se consideran otras versiones (por ejemplo, TPR frente a FPR; en este caso, la forma de la curva sería diferente).
DET – Detection Error Trade-Off curve: Se trata de una curva ROC modificada que representa las tasas de error en ambos ejes (falsos positivos en el eje x y falsos negativos en el eje y). Vea un ejemplo en la siguiente figura.
APCER – Attack Presentation Classification Error Rate: Proporción de presentaciones de ataque que utilizan la misma especie PAI clasificadas incorrectamente como presentaciones de buena fe en un escenario específico. APCER se calcula para cada especie PAI evaluada utilizando la ecuación siguiente, donde NPAI es el número de presentaciones de ataque para la especie PAI dada, y Res toma el valor 1 si la presentación se clasifica como una presentación de ataque, y el valor 0 si se clasifica como una presentación de buena fe dado un umbral (θ).
A continuación, para calcular el peor escenario utilizamos la siguiente ecuación. Podemos observar que el número de PAIS ∈ P, donde P es el conjunto de PAIS seleccionados, es determinante para el resultado APCER. Si utilizamos una especie de PAI de grano fino hay una mayor probabilidad de que un PAI penalice el peor escenario.
BPCER – Bona fide Presentation Classification Error Rate: Proporción de presentaciones de buena fe clasificadas incorrectamente como presentaciones de ataque en un escenario específico.
donde NBF es el número de presentaciones de buena fe, y Res toma el valor 1 si la presentación se clasifica como presentación de ataque, y el valor 0 si se clasifica como presentación de buena fe dado un umbral (θ).
ACER-Average Classification Error Rate: Esta métrica se define como la media de la APCERmax(PAI) y la BPCER para un umbral de decisión predefinido.
Todas estas métricas se han utilizado durante muchos años para comparar enfoques face-PAD. Sin embargo, a veces es necesario buscar nuevas métricas o reformularlas para hacer evaluaciones más justas. En próximos artículos repasaremos algunas métricas nuevas que utilizamos internamente para mejorar la evaluación de nuestros sistemas.