Esta es la segunda entrega de la serie “Cómo implantar tecnología Machine Learning” en las organizaciones. Si en el primer post, poníamos en valor las recomendaciones previas necesarias para la adopción de herramientas de los modelos de aprendizaje, aquí vamos a profundizar en cuáles son sus limitaciones, un aspecto muy importante que se debe tener en cuenta a la hora de adentrarse en el mundo de la Inteligencia Artificial.

A priori, conocer las limitaciones del Machine Learning (ML) nos ayudará a realizar inversiones que ofrezcan posibilidades reales de obtener un retorno, que no sobreestimen los resultados de este tipo de proyectos y que no generen expectativas que, en último término, sean muy difíciles o imposibles de alcanzar.

Teniendo en cuenta estas premisas iniciales, pasamos a examinar las principales limitaciones del ML:

  1. Los datos de entrenamiento son el punto de partida. Para que un modelo de ML funcione adecuadamente y sus predicciones sean lo más exactas posibles, es necesario someterlo a un proceso de aprendizaje previo. Este aprendizaje o entrenamiento se lleva a cabo proporcionando al sistema unos datos, con el fin de que el modelo pueda establecer unos patrones de predicción. Estos son los datos que denominaremos “de entrenamiento”, y sin ellos el modelo de ML no puede aprender por lo que quedará inservible.

Este punto es de suma importancia en el proceso de generación de ML.  Si los datos de entrenamiento que le aportamos a los algoritmos no son relevantes o son incompletos, su eficiencia será muy limitada. Por ello el tiempo y sobre todo la creatividad dedicada a los datos de entrenamiento de los analistas que entrenan sistemas de ML, es un aspecto muy importante.

A finales de 2017 se creó, en los laboratorios de Google, el sistema de inteligencia artificial para competir en el juego del Go, denominado AlfaGo Zero, que tiene la particularidad de aprender por sí solo, generando sus propios datos de entrenamiento. Sin embargo, en el día a día de las empresas estos modelos no aplican, porque deben contar con unas reglas y posibilidades de acción limitadas, que permitan generar estos datos sintéticos. Por lo tanto, es de suma importancia asignar datos de entrenamiento óptimos para cada algoritmo o modelo de ML.

 

  1. Un modelo de ML con buenos resultados puede en cualquier momento dejar de tenerlos. Hasta la mejor Inteligencia Artificial empleada en un modelo de ML, que predice con un ínfimo nivel de error, puede dejar de hacerlo si las circunstancias varían. Es decir, el sistema predice, o actúa en función de lo que ha aprendido del pasado.

La irrupción de acontecimientos, como nuevos competidores o productos que cambian el proceso de decisión del cliente,  exigen la creación de sistemas de modelización que vayan adaptándose a las nuevas circunstancias y que, a su vez, sepan diferenciar lo realmente importante del “ruido” (información no relevante para el entrenamiento) de aquellos cambios de tendencia que sí son relevantes para el modelo. .

  1. El grado de confianza estadístico no asegura el éxito. El grado de confianza de un modelo predictivo o de clasificación nos dice en que medida el modelo está acertando con los datos de entrenamiento. Cuantas más coincidencias se produzcan entre los pronósticos del modelo  y lo ocurrido en la realidad, se otorga mayor grado de confianza teórico.

Pero este grado de confianza no garantiza lo que ocurrirá en el futuro, simplemente nos asegura que el modelo se ajusta a los datos dados. Por circunstancias cambiantes como las que se comentan en el punto anterior, o por lo que se denomina “sobre-entrenamiento” del algoritmo, en donde el modelo se ajusta en exceso a los datos, el grado de confianza puede ser muy diferente al grado de acierto real.

-Por Pedro Herrera Nachón, socio y fundador de NovaQuality