En el ciclo de vida de Inteligencia Artificial (IA) usamos datos que construyen modelos para la automatización de la toma de decisiones. Los conjuntos de información, modelos y pipelines (que son los que nos llevan desde los sets de datos sin procesar hasta modelos implementados) se convierten en los tres pilares más críticos del ciclo de vida de IA.
Debido a la gran cantidad de pasos, el proceso de construir un modelo puede dividirse entre diversos equipos y dar lugar a numerosas duplicaciones cuando se generan datasets, features, modelos, pipelines y pipeline tasks similares. Esto plantea un fuerte desafío en cuanto a rastreabilidad, gobierno, gestión de riesgos, seguimiento de lineage y colección de metadatos.
Para solucionar los problemas anteriormente mencionados, necesitamos un repositorio central en el que todos los tipos de activos diferentes, como datasets, modelosy pipelines sean almacenados para ser compartidos y reutilizados transversalmente en la organización. Contar con esos activos verificados y comprobados, con controles de alta calidad, las licencias adecuadas y el seguimiento de linaje, incrementa la velocidad y eficiencia del ciclo de vida de IA.
Con el objetivo de resolver tales desafíos, IBM y Linux Foundation AI and Data (LFAI and Data) unen esfuerzos para anunciar Machine Learning eXchange (MLX), un catálogo de activos de datos e IA y un engine de ejecución en open source y open governance.
Machine Learning eXchange (MLX) permite cargar, registrar, ejecutar e implementar pipelines de IA y componentes de pipelines, modelos, datasets y notebooks.
Machine Learning eXchange proporciona:
- Generación automatizada de modelos de código de pipeline para ejecutar modelos, datasets y notebooks registrados
- Pipelines engine impulsado por Kubeflow Pipelines en Tekton, la base de “Watson Studio Pipelines”.
- Registro para componentes de Kubeflow Pipelines.
- Gestión de datasets con Datashim
- Service engine KFServing
Activos del catálogo de Machine Learning eXchange
Pipelines
En el aprendizaje automático, o machine learning (ML) es común realizar una secuencia de tareas para procesar y aprender de los datos. Todo puede llevarse en un pipeline. Los machine learning pipelines son:
- Una manera coherente de colaborar en proyectos de ciencia de datos más allá de los límites de la organización y el equipo.
- Una colección de tareas generales encapsuladas como componentes de pipeline que encajan como ladrillos de lego
- Un lugar único para los interesados en entrenar, validar, implementar y monitorear modelos de IA
Componentes de pipeline
Un componente de pipeline es un conjunto de códigos autónomos que realizan un paso en el workflow de ML (pipeline), como la adquisición de datos, el preprocesamiento de datos, la transformación de datos y el entrenamiento de modelos, entre otros.
Los componentes son bloques de código que realizan tareas atómicas y se pueden escribir en cualquier lenguaje de programación y utilizando cualquier framework. Algunos de los componentes de pipeline que se incluyen en el catálogo MLX son, entre otros, Create Dataset Volume with DataShim, Deploy a Model on Kubernetes, Adversarial Robustness Evaluation y Model Fairness Check.
Modelos
MLX proporciona una colección de modelos de deep learning gratuitos, de código abierto y última generación para dominios de aplicaciones comunes. La lista seleccionada incluye modelos desplegables que pueden ejecutarse como microservicio en Kubernetes u OpenShift, y modelos que pueden entrenarse por los usuarios con sus propios datos.
Algunos modelos incluidos en el catálogo MLX son: Human Pose Estimator, Image Caption Generator, Recommender System y Toxic Comment Classifier.
Datasets
El catálogo MLX contiene conjuntos de datos reutilizables y aprovecha Datashim para hacer que la data esté disponible para otros activos MLX, como notebooks, modelos y pipelines en forma de volúmenes Kubernetes.
Entre los datasets que contiene el catálogo MLX están Finance Proposition Bank, NOAA Weather Data – JFK Airport, Thematic Clustering of Sentences y TensorFlow Speech Commands.
Notebooks
La aplicación web de código abierto Jupyter notebook les permite a los científicos de datos crear y compartir documentos que contienen código ejecutable, ecuaciones, visualizaciones y texto narrativo. MLX puede ejecutar Jupyter notebooks como contenidos de pipeline autónomo aprovechando el proyecto Elyra-AI.
Algunas de las notebooks que contiene el catálogo MLX son AIF360 Bias Detection, ART Poisoning Attack, JFK Airport Analysis y Project CodeNet Language Classification.
Machine Learning Exchange proporciona un marketplace y una plataforma para que los científicos de datos compartan, ejecuten y colaboren en sus activos. Ahora se puede usar para alojar y colaborar con activos de datos e IA dentro del mismo equipo de trabajo y con otros equipos.