Entendiendo el sesgo
El reconocimiento facial está presente en cada vez más industrias. La pandemia ha facilitado el incremento de soluciones sin contacto destinadas a prevenir la propagación del virus, soluciones lideradas por la biometría, en general, y por el reconocimiento facial, en particular.
La aplicación de este tipo de tecnologías va acompañada de numerosos debates sobre la privacidad de los usuarios, la seguridad de sus datos, etc.
En concreto, el creciente número de productos y servicios que utilizan datos biométricos y reconocimiento facial ha hecho patente la existencia de ciertos sesgos y discriminaciones. Particularmente relacionados con tecnología implementada por las fuerzas del orden.
???? Es importante recordar que el reconocimiento facial es simplemente una herramienta y que cualquier sesgo asociado es el resultado de cómo se entrenan sus algoritmos.
¿Qué es el sesgo en el reconocimiento facial y cómo funciona?
La gran mayoría de los sistemas de reconocimiento facial funcionan a partir del escaneado de imágenes del rostro, que la propia tecnología traduce a expresiones numéricas para, posteriormente, compararlas con una base de datos y determinar si existe un «matching», una similitud con información previamente registrada en una base de datos.
Sin embargo, para ejecutar este proceso, primero el sistema necesita establecer ciertas redes neuronales artificiales durante un período de entrenamiento en el que se alimentan los datos del sistema. A partir de ahí, es cuando pueden comenzar a escanear las imágenes faciales.
A través de reglas establecidas inicialmente, los algoritmos utilizan el deep learning para mejorar sus predicciones y obtener resultados más precisos.
El sesgo surge cuando el conjunto de reglas que guían el aprendizaje de los algoritmos no es lo suficientemente amplio o no es representativo.
Está claro que a partir de datos de entrenamiento sesgados se infieren resultados sesgados. De ahí la importancia de la muestra seleccionada para ayudar a los algoritmos biométricos en su proceso de aprendizaje.
⚠️ ⚠️ ⚠️ ¿Sabías que…?
Las reglas o algoritmos de deep learning no tienen sesgos, digamos que son sistemas en blanco, sin ningún tipo de conocimiento. La aparición de sesgos depende de lo que se le enseñe, es decir, los datos que se introduzcan durante la etapa de entrenamiento.
¿Cómo se puede mitigar el sesgo?
Recientemente, nuestros compañeros, Daniel Pérez Cabo, Esteban Vázquez Fernández y Artur Costa-Pazo, acompañados por David Jiménez-Cabello y José Luis Alba Castro, analizaron este tema en un estudio centrado en los sesgos demográficos en los sistemas de detección de ataques PAD.
El objetivo principal de la investigación fue permitir la comparación justa entre varios sistemas de detección de ataques de suplantación de identidad, parte fundamental de los sistemas de reconocimiento facial.
A lo largo del análisis, se destacan ciertas limitaciones en la mayoría de los principales datasets públicos, derivadas del proceso de captura de los datos. Por ejemplo, si todas las bases de datos públicas se recogen en universidades tecnológicas de Asia, la gran mayoría de identidades serán asiáticas y existirá una mayor probabilidad de desproporción entre hombres y mujeres, etnia,etc.
A continuación, presentan una evaluación del sesgo étnico en un conjunto de datos y un protocolo de diseño propio.
“La equidad es un aspecto crítico para cualquier solución que tenga como objetivo crear modelos que agnóstico a diferentes características sociales y demográficas”.
Para perseguir este objetivo, nuestros compañeros partieron del marco GRAD-GPAD, con el objetivo de agregar a continuación la categorización de tres nuevos conjuntos de datos, aumentando así el número de identidades en más de un 300% y el número de muestras en más de un 181%.
Además, añadieron nuevas categorizaciones y etiquetado por sexo, edad y tono de piel, así como nuevos protocolos demográficos, herramientas de visualización y métricas para detectar y medir la existencia de sesgos. Con el objetivo de convertir esta nueva versión en el dataset público agregado más grande para face-PAD.
Bautizaron a esta base de datos mejorada como GRAD-GPAD v2.
Diferentes objetivos, diferentes escenarios
Según el estudio de nuestros compañeros, a pesar de los mejores esfuerzos de la comunidad por minimizar los sesgos en los sistemas de detección de ataques de suplantación de identidad, los resultados del trabajo indican que los datasets públicos tienen un importante sesgo derivado del proceso de captura y los objetivos del mismo.
«La razón fundamental detrás de este sesgo se origina en el entorno experimental de la siguiente manera: cada conjunto de datos tiene diferentes objetivos y evalúa el rendimiento de los modelos en diferentes escenarios».
Por ejemplo, algunos de estos sistemas pueden construirse para ejecutarse solo en dispositivos móviles, ya sea en entornos al aire libre o de laboratorio, con iluminación sintética o natural, utilizando un entorno de incorporación simulado o para su implementación en otros escenarios específicos.
«Incluso si tratamos de incorporar todos los escenarios posibles, encontramos que los sesgos todavía están presentes de alguna forma».
Más allá de la falta de representatividad
La agregación de los datasets públicos como se hace en GRAD‐GPAD v2 no solo muestra una mejora en la mitigación del sesgo proveniente de los datos, sino que también permite comprender la distribución del sesgo dentro del dataset de entrenamiento.
“[GRAD‐GPAD v2] nos permite incorporar compensaciones en el proceso de aprendizaje y mejorar la captura de datasets en el futuro”.
Si bien el estudio es solo un ejemplo de cómo se pueden mitigar los sesgos en los sistemas de detección de ataques de suplantación de identidad, es relevante.
De hecho, GRAD ‐ GPAD v2 cierra la brecha de la falta de representatividad de las obras de vanguardia y da un paso hacia evaluaciones justas entre métodos.
“[Lo hace] no solo desde la perspectiva de los diferentes instrumentos utilizados para realizar los ataques, sino también considerando escenarios realistas en la producción”.
???? Por supuesto, estos hallazgos se utilizan en los desarrollos de Alice Biometrics con el objetivo de proporcionar datos biométricos seguros e imparciales.
Si quieres conocer más sobre nuestra tecnología, ¡contáctanos!
Esta publicación ha sido financiada por la Agencia Estatal de Investigación DIN2019-010735 / AEI / 10.13039/501100011033