机器学习项目的整个流程

一个误区:机器学习项目在部署的时候,不止有软件工程问题,还有更多的挑战。
MLOps的整个过程

- 设计机器学习解决方案
- 机器学习实验和开发
- 机器学习运维
核心点: 世界在变,你的模型也应该随着变化
部署的例子: 工业化的缺陷检测

可能遇到的挑战
- 数据漂移 预测数据不清晰,与训练数据集有偏差

从模型训练完成到部署然后产生价值,可能还需要6个月的时间。
2.生产中的机器学习系统

论文: 机器学习系统的组件

机器学习项目生命周期

例子: 语音识别
- Scoping:确定语音识别的工作范围。 确定关键的指标,包括准确率,延迟和吞吐量,QPS等 还有花费的时间,计算资源,项目时间规划等
- Data: 定义数据,包括标注数据的一致性,怎么做归一化。
- Modeling: 建模:算法,超参数和数据。 主要是为了获取高性能的模型,需要固定代码,修改超参数和数据。 ml system = code + data 主要是改善数据
- Deployment: 部署: 边缘设备程序,预测服务器,监控

数据变化很缓慢 数据变化很快

软件问题
机器学习系统部署模式

shadow mode: 影子部署模式

Canary deployment: 金丝雀部署

blue green depoyment: 蓝绿部署

自动化的等级

监控机器学习系统





机器学习流水线的监控


第一周作业
Week 1: Overview of the ML Lifecycle and Deployment
If you wish to dive more deeply into the topics covered this week, feel free to check out these optional references. You won’t have to read these to complete this week’s practice quizzes.
A Chat with Andrew on MLOps: From Model-centric to Data-centric
Papers
Konstantinos, Katsiapis, Karmarkar, A., Altay, A., Zaks, A., Polyzotis, N., … Li, Z. (2020). Towards ML Engineering: A brief history of TensorFlow Extended (TFX). http://arxiv.org/abs/2010.02013
Paleyes, A., Urma, R.-G., & Lawrence, N. D. (2020). Challenges in deploying machine learning: A survey of case studies. http://arxiv.org/abs/2011.09926
Sculley, D., Holt, G., Golovin, D., Davydov, E., & Phillips, T. (n.d.). Hidden technical debt in machine learning systems. Retrieved April 28, 2021, from Nips.c https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf