Con una extensa experiencia profesional, el ingeniero en Sistemas Sebastián Barbone es, además, profesor en la Universidad Tecnológica Nacional, donde se dedica a la enseñanza de Machine Learning. Barbone visitó el auditorio de Ticmas y abordó los fundamentos clave de esta disciplina tan vinculada al big data y la inteligencia artificial
—Hablemos de machine learning, de cómo le enseñamos a la máquina.
—Cómo le enseñamos a la máquina. La máquina aprende lo que vos le des como entrada. Si, por ejemplo, en este auditorio yo quisiera saber quién es hincha de Boca y quién de River, podría hacer cinco o seis preguntas a cada uno y, a partir de modelos de cómo son los hinchas de Boca y River, podría saberlo. Para que la máquina lo sepa, tenés que decirle cómo son las características de los hinchas; ahí está la magia del machine learning. Yo siempre digo que los algoritmos son lo de menos. Hay un millón, y cualquiera te va a dar más o menos lo mismo. La cuestión está en identificar cómo son los hinchas de Boca y de River. Yo doy una materia en la UTN que arrancó cómo electiva el año pasado y ahora es obligatoria. Eso está bien, es lo que hace que la ciencia de datos vaya explotando. Hoy todo el mundo puede hacer un curso de ciencia de datos en seis meses y ya está trabajando.
—¿Cómo se programa para machine learning, que no sigue la estructura de la programación clásica?
—Hay un montón de lenguajes; ahora está muy de moda Python o PySpark, que son lenguajes abiertos y que le permiten a cualquiera hacer machine learning. Antes necesitabas un montón de plata; hoy lo podés hacer desde tu casa. Pero la parte estructurada sigue estando. Yo sigo haciendo modelos estructurados, y sigo usando código que podría haber usado hace quince años. Esa parte es para crearle todos los datos que va a usar el modelo.
—¿Qué cambia, entonces?
—Cambia el poder computacional de las máquinas. Hoy a la máquina en casa le doy F5 y corre 500 árboles. Antes no podías hacer eso ni loco. Corríamos uno y, si nos daba bien, nos abrazamos. Hoy corremos 500, nos dan bien y decimos “Mmm, sí, podría ser mejor”. Ahí está el algoritmo. Los algoritmos son como cajas que usás según lo que necesites. Podés usar redes neuronales, puedes usar random forest, podés usar regresiones. Todo depende de tu background, de lo que vos sabés, y hasta dónde querés “levantar el capot del auto”. Y podrás tocar dos, tres cosas, pero, para mí, no va a cambiar mucho si no le ponés mejores variables, mejores datos o una población distinta. De nuevo: si tengo que buscar a los hinchas de Boca y de River, ¿voy a la cancha de Independiente? Eso es lo más importante hoy en día. No tanto la programación. Yo trabajo con gente que no sabe programar.
—¿En qué proyectos se aplica machine learning?
—En un montón. Están los típicos modelos que se usan hace bastantes años para predecir la baja de un cliente. También los modelos de scoring en los bancos, para predecir si me vas a pagar la tarjeta o el préstamo hipotecario. Todos tienen Netflix: uno abre la aplicación y te dice “Esta película es para vos”. Atrás de eso hay un modelo de machine learning. MercadoLibre también tiene un modelo predictivo cuando te recomienda los productos que otros vieron. En medicina hay modelos que detectan el cáncer mejor que los médicos; analizan imágenes y ven puntos que los médicos no ven. En logística. Los conductores de UPS siempre tienen que doblar a la derecha —no pueden doblar a la izquierda— porque el algoritmo detectó que es menos riesgoso. Yo lo usé en una planta de metales que hace caños de petróleo para detectar anomalías. También en la detección de fraudes. En cualquier lado se puede usar machine learning.
—¿Cómo se predice la baja de un cliente?
—Por ejemplo: si vas a dar de baja una tarjeta, ¿qué es lo primero que hacés? Sacás los débitos automáticos. Lo que uno busca es tratar de entender al cliente y anticiparse, con datos del pasado, para predecir el futuro. Cada vez que entro a un trabajo me gusta hacer segmentaciones y ver cómo se comporta la cartera: “Estos dos te usan un montón, esos cinco más o menos, y esos de allá te odian”. Es la base para entender cómo funciona tu negocio. Porque capaz le estás dando pan con manteca a todo el mundo y hay gente que quiere sushi.
—¿Por qué se llaman modelos analíticos?
—Machine learning, data mining, ciencia de datos, big data —que es lo mismo, pero con más datos y más volumen— son modelos analíticos porque tienen mucho de matemática, de programación, de negocio. Desde mi lado de ingeniero, tengo mucho de programación y puedo darle una vuelta de rosca ahí. Desde el lado estadístico, necesito un actuario que trabaje conmigo. Y desde el lado más experimental, tengo un físico que analiza computer vision, el análisis de imágenes.
—¿Antes se le decía big data a lo que ahora es machine learning?
—Para mí es lo mismo, pero con anabólicos. Hacemos el mismo trabajo. Curamos la data, analizamos las variables, vemos la población y tiramos un algoritmo. Lo que pasa que hace diez años tirabas un algoritmo y necesitabas una máquina grande como una habitación para que lo procese. Hoy, a un volumen gigante de datos lo puede procesar cualquiera.
—¿Cuánto tiene de estadística tu trabajo?
—Bastante. Pero depende de tu perfil. Yo soy ingeniero en sistemas, con lo cual, mi trabajo tiene estadística pero yo lo llevo a sistemas y después a un poquito de estadística. En la tesis de maestría, de hecho, me dijeron que me faltaban fundamentos de estadísticas. Cuando hice la carrera pensaba que había cosas que no iba a usar nunca y en el trabajo aparecía r al cuadrado y yo sabía que lo había visto. La facultad te da metodología. Por eso, si nosotros encontramos un problema, no lo vemos como un problema sino como un desafío.
—Te preguntaba por la estadística porque, para reconocer una población, imagino que hay características que te llevan a otras disciplinas. ¿Hay que trabajar con sociólogos, con…?
—Nosotros podemos ver la variancia, la representatividad. Si encuento una característica que aplica a 20 personas, evidentemente no me sirve. Después pasa que el modelo está overfiteado, es decir: que se ajusta mucho a la muestra de entrenamiento. En un proyeco puede intervenir cualquiera. Un chico que trabaja conmigo es economista, pero, en realidad, es músico. Hace música electrónica y se enganchó con machine learning por el algoritmo de Spotify. Hay físicos, matemáticos, sociólogos, gente de marketing. Cualquiera puede hacerlo, y cada uno tiene sus ventajas y sus desventajas. Desde la facultad, nosotros tratamos que el ingeniero sea creativo. “Dale, salí de la caja”.
—¿Los estudiantes deberían estudiar con los mismos hábitos en que van a trabajar?
—Es que es así. Google está ahí, te va a ayudar. Está el tema del plagio: con 15, 20 años adentro de la facultad, me doy cuenta cuándo hay plagio. Pero yo no puedo enseñarte algo que después, en el trabajo, va a ser diferente. Yo estudiaba y trabajaba. Tenía la teoría en la facultad a la noche y a la mañana tenía la práctica en la oficina. Programé antes de saber qué era programar en la teoría. No se puede estar desconectado de eso. Google está ahí, cómo no vas a buscar en Google.
LEER MÁS