Entendiendo el aprendizaje automático: Un enfoque conceptual

Jesús Puente

Jesús Puente

Entendiendo el Aprendizaje Automático

El aprendizaje automático (machine learning o aprendizaje máquina) es una técnica utilizada para crear algoritmos muy complejos de forma eficiente. La idea es que, utilizando el aprendizaje automático, los ingenieros pueden crear modelos algorítmicos capaces de comprender entradas con miles o millones de variables interconectadas y darles sentido para obtener un resultado coherente. Aunque, en teoría, estos modelos podrían elaborarse manualmente con reglas específicas, si los datos de entrada son muy complejos, los métodos manuales podrían resultar inviables.

El aprendizaje automático llegó a resolver esto, la técnica es la siguiente:

Diseñando una red neuronal

Diseña una arquitectura capaz de analizar muchos datos y que produzca el formato que esperas. Por ejemplo, puede que tu entrada consista en mil variables y quieras un modelo capaz de distinguir entre dos categorías. La entrada podrían ser características faciales y la salida podría ser distinguir si es una imagen genuína o un ataque.

Una de las principales características de estas arquitecturas es que permiten que todas las variables de entrada se influyan mutuamente. La otra característica es que tienen un gran número de parámetros internos que deben ser ajustados para que el modelo funcione. Es lo que se denomina una red neuronal artificial, RNA.

El término RNA y las teorías subyacentes en las que se basa llevan existiendo desde el siglo pasado, pero ha sido más recientemente, con la aparición de una informática más potente, cuando han cobrado mucha relevancia.

Existen otras arquitecturas además de la RNA, pero nos centraremos en ésta porque es una de las más versátiles y populares.

Entrenando una red neuronal

Inicialmente, esta RNA no dará la salida deseada dada una entrada. Esto se debe a que no se han ajustado sus parámetros internos. El objetivo es ajustar los valores de estos parámetros internos para que, dadas esas 1000 variables de entrada, el modelo dé como resultado el género correcto. ¿Cómo se consigue? Mediante el «entrenamiento».

Entrenar una red neuronal consiste en una forma automatizada de afinar sus parámetros internos para que el modelo resultante se comporte de la forma prevista. En nuestro ejemplo, queremos que el modelo detecte la suplantación de identidad si la entrada procede de una muestra de ataque, y que la clasifique como auténtica en caso contrario.

Hay muchas formas de entrenar una red, pero todas requieren el uso de datos. ¿Qué datos? Los datos que intentamos modelar. La forma principal en que se entrenan las RNA es utilizando el paradigma del aprendizaje supervisado. En el aprendizaje supervisado, se utilizan las muestras de entrada y la salida deseada para cada muestra, se pasan por el modelo y se actualizan los parámetros de la red para que la salida del modelo se acerque más a la deseada. Con suficientes iteraciones y siguiendo las reglas del paradigma, los parámetros del modelo alcanzarán un estado óptimo y el modelo habrá aprendido la tarea.

Así que sí, para hacer un modelo ML que clasifique algunos datos de entrada, necesitará en primer lugar tener esos datos ya clasificados. El modelo resultante, si se ha entrenado correctamente, será capaz de generalizar y clasificar/predecir datos con los que nunca se ha entrenado. La idea que subyace al ML es que se puede automatizar una tarea que es demasiado compleja para un algoritmo elaborado manualmente o que requiere muchos recursos humanos pero que ya ha sido resuelta;

El aprendizaje automático se aplica a diversas industrias

  • Sanidad: Modelización predictiva para el diagnóstico de enfermedades y la recomendación de tratamientos.
  • Finanzas: Detección del fraude, negociación algorítmica y evaluación del riesgo crediticio.
  • Procesamiento del lenguaje natural: Reconocimiento de voz, análisis de sentimientos y traducción de idiomas.
  • Vehículos autónomos: Detección de objetos, planificación de trayectorias y capacidades de conducción autónoma.

Comprender los aspectos conceptuales del aprendizaje automático es esencial para entender su potencial y sus limitaciones. A medida que el campo sigue evolucionando, el aprendizaje automático está a punto de transformar las industrias e impulsar la innovación en los próximos años. En Alice, el aprendizaje automático es la base de nuestra tecnología, que nos permite verificar millones de identidades cada año.

¿Qué pasa con el aprendizaje profundo?

Cuando escalamos estos principios a grandes arquitecturas y grandes conjuntos de datos y procedimientos de entrenamiento, lo llamamos aprendizaje profundo. Como se utilizan más parámetros para modelar la tarea, la red resultante será capaz de aprender problemas más complejos. El aprendizaje profundo está detrás de los avances más recientes en aprendizaje automático, como las IA generativas y los grandes modelos lingüísticos como ChatGPT o Google Bard.

Si te ha gustado, comparte en