耀图资本注:关注AI圈的朋友可能注意到,近年来出现了MLOps(机器学习运维)这样的新概念。 它脱胎于DevOps,旨在提高工作流程效率。 顾名思义,可以理解为机器学习时代的DevOps。 。 本文将对MLOps领域的企业进行盘点,分析数据编程时代的工具链创业机会。
作者Warren Wen长期关注耀图资本的AI算法和企业服务领域。 欢迎AI从业者、创业者通过知乎(ID酱油哥Warren)或邮件()与他交流。
MLOps的定义:更好的效果VS更好的落地
不同的人对 MLOps 有不同的定义。 全球人工智能和机器学习领域最权威的学者之一吴恩达认为,MLOps最重要的是在整个机器学习生命周期中确保始终如一的高质量数据,强调可以获得更好的结果通过确保数据质量。
Aquarium 就是一家符合这一定义的公司。 Aquarium 官网称“Aquarium is an ML data management platform that help you Improve your models by Improve your datasets”,自称是一个机器学习数据管理平台。 本质上是通过优化数据质量来提高效果,而不是优化模型来提高效果。
该公司已获得红杉资本和 Y Combinator 的投资,最新一轮融资为 260 万美元。
另一类人认为MLOps是如何更好或者更快落地,解决机器学习落地的技术债(在代码实现过程中做出权宜之计的持续成本)。
从广义上讲,MLOps涵盖了整个机器学习生命周期,初创公司如Valohai; 狭义上,MLOps 关注的是如何将模型放到生产环境中,主要体现在部署、服务、监控等方面。 初创公司包括 Algorhmia; 将自己划分到 MLOps 领域。
MLOps 综合开源项目
有许多与 MLOps 相关的开源项目。 这里我们选取了几个综合性的MLOps开源项目进行比较,涵盖Google的kubeflow、Databricks的MLflow、Netflix的metaflow、lyft的Flyte、allegro.ai的clearml、iguazio的mlrun。
对比GitHub上各个项目的star成长轨迹可以看出,mlflow和kubeflow无论是star的绝对数量还是star的斜率都具有明显的优势,这可能与Spark和K8s强大的生态有很大关系。
MLOps 初创公司列表
下面的文章将根据机器学习生命周期的阶段(数据准备、模型构建、部署和监控)对MLOps相关公司进行分类和分析。
数据准备
数据综合
一家数据合成初创公司,使用合成数据进行模型训练。 目前,数据合成方面的企业融资金额并不大,进展也不是很顺利。 是否有广阔的市场还很难确定。
数据标注
由于当前的人工智能主要基于监督学习,因此广泛存在数据标记的需求。 数据准备阶段运行最快的是 Scale.ai,目前有望在 12 个月内实现 1 亿美元的收入,并且在过去一年中销售额翻了一番。 著名客户包括 PayPal、Pinterest 和美国空军。 该公司还与丰田、通用汽车等主要汽车制造商合作。 最新一轮融资金额为3.25亿美元,估值为73亿美元。
对大量训练数据进行标注需要一定的成本,这已经成为部署AI应用的瓶颈。 斯坦福AI实验室开源了一个弱监督框架Snorkel,不需要标注器来标注数据,而是编写标注函数,同样可以训练SOTA模型。 想法新颖,最新一轮融资已完成3500万美元。 历史领先的投资机构包括Greylock、Lightspeed Ventures Partners和GV。
数据质量
在数据质量方面,吴恩达提到的以数据为中心的MLOps是通过提高数据的质量来提高AI系统的效果,而不是优化模型来提高效果。
水族馆的口号是“通过更好的数据获得更好的数据”。 具体方法是找到被错误标记但模型预测正确的样本,并重新标记。 找到被正确标记但模型预测错误的样本,并添加相似的样本。 Aquarium 完成最新一轮 260 万美元投资,由 Y Combinator 和红杉资本等历史投资者领投。
除了主打数据质量的Aquarium之外,数据标注独角兽Scale.ai也发布了新产品Nucleus。 和Aquarium一样,它通过提高数据质量来提高模型的预测效果,如下图所示。
数据版本控制和托管
初创公司包括 Graviti 和 Iterative.ai 等。 其中,Graviti是国内一家致力于打造AI时代GitHub的初创公司,专注于解决AI开发中的数据痛点,从海量的开放数据集社区(Open Datasets)到专业的数据管理SaaS( TensorBay),使用户可以在云端轻松获取、托管和使用数据。 需要数据集的朋友可以去Open Dataset浏览。
建筑模型
深度学习框架
各大公司在深度学习框架上竞争激烈,如Tensorflow、PyTorch、Mxnet、PaddlePaddle,很少有初创公司敢加入这个战场。 以前的DL4J框架已经逐渐淡出了人们的视线。
一流科技是国内唯一一家拥有深度学习框架的初创公司,不禁感叹创始团队的情怀和勇气。 创始团队开发了Oneflow框架,主打高性能。 最新一轮融资5000万元完成,高瓴资本单独投资。
培训管理
在基于规则的编程范式中,参与构建过程的人主要是工程师,痛点是对代码做版本管理。 在基于数据的编程范式中,构建过程就是训练,参与者不再是纯粹偏向业务方的工程师,而往往具有一定的研究性质。 对于实验密集型机构来说,实验模型和参数的版本管理和追溯是尤为痛点。
OpenAI 是典型的研究密集型机构,Weights&Biases 使用 OpenAI 的用户案例作为案例研究。 Weights&Biases是实验管理领域运行速度最快的公司,在200多家企业拥有超过70,000名用户。 最新一轮融资完成了由 Insight Partners 领投的 4500 万美元融资。 值得一提的是,创始团队还曾创办过一家数据标注公司,后被澳鹏收购。
Grid AI的创始人在纽约大学读博士时曾在Facebook AI Research实习。 在此期间,他创建了基于 pytorch 框架构建的开源项目 PyTorch Lightning。 其一大特色是将模型代码与工程代码分离,让研究人员能够专注于模型代码的编写,是全球发展最快的机器学习项目之一。 该项目自 2019 年下半年开源以来,已收获 13.5k。 最新一轮融资已获得1860万美元,由Index Ventures领投。
机器学习
在机器学习平台中,DataRobot运行速度更快。 最新一轮融资5000万美元,由雪花创投领投。 上一轮融资完成2.7亿美元,目前估值28亿美元。 还有一家开源公司H2O.ai,完成了最新一轮超过7000万美元的融资,由高盛和平安领投。
DataRobot、H20.ai和Dataiku都是大公司,拥有丰富的产品线,包括AutoML和MLOps。
Snowflake的主要产品是云数据仓库,主要处理表数据,而DataRobot、Dataiku等公司主要处理表数据。 数据仓库是做表的聚合统计,ML是做表预测(分类或者回归),数据仓库和机器学习是处理表数据的不同环节,以及上下游的关系,所以Snowflake投资了DataRobot和Dataiku同时。 从Snowflake目前的规模来看,未来很有可能收购一家专注于表数据的机器学习平台公司。
中国运行最快的机器学习是第四范式。 腾讯投资最新一轮投资已完成,上一轮已完成7亿美元融资。 国内外在机器学习平台方面存在显着差异。 国外公司往往边界清晰,专注于小单点,而第四种方法则拥有极其丰富的产品线,不仅包括软件,还包括硬件。 这与中美IT基础设施环境的差异有关。
部署和监控
前面提到,广义的MLOps包括从设计、建模到部署的多个流程,这里的“MLOps”是狭义的定义,根据公司官网的描述进行分类。
声称拥有 MLOps 产品的初创公司分为以下几类:
DataRobot、H2O.ai、Dataiku 等公司已从 AutoML 起步,并将产品线扩展到 MLOps。 例如,DataRobot收购了以色列MLOps公司ParallelM,以增强其部署能力。 像Algorithmia这样的公司专注于部署,而Valohai是一家覆盖整个机器生命周期的公司。 另外,有的公司专注于机器学习,有的公司专注于深度学习; 有些在云端,有些在边缘(开放智能)。 (不同公司的比较可以参考valohai的文章)
国内MLOps方向的公司目前有Open AI Lab,专注于边缘侧的部署能力。 OPEN AI LAB成立于2016年,专注于边缘智能计算与应用。 以Tengine为核心,为AIoT行业上下游合作伙伴提供端、边、云一体化的人工智能开发基础软硬件平台和解决方案。
2018年6月,耀图资本、普华资本联合领投公司pre-A轮融资,随后获得红杉资本、宽带资本投资的过亿元融资。
特色商店
特征存储是 Tecton 创始人在 Uber 担任工程师时提出的概念。 此后不久,一位名叫 Willem Pienaar 的工程师阅读了创始人关于在 Uber 上构建功能商店的博客文章,并开始构建 Feast 作为该概念的开源版本,现在是 Linux 基金会的一个项目,拥有近 2k 颗星。 后来 Tecton 聘请 Willem Pienaar 加入公司。 2020年,Tecton分别完成2000万美元和3500万美元融资,由a16z和红杉资本联合领投。
大厂商也开始关注这个功能。 AWS 2021 Reinvent大会发布了Sagemaker中的特征存储功能。 不久前,在 Google I/O 大会上,Google Cloud 宣布了 Vertex AI,这是一个新的托管机器学习平台,旨在让开发人员更轻松地部署和维护他们的 AI 模型。 奇怪的是,I/O 通常专注于移动和 Web 开发人员,传统上并没有很多与 Google Cloud 相关的公告,但 Google 决定在 I/O 上宣布 Vertex 的事实证明了它的重要性。 它还包含特征存储。 我预计,在不久的将来,国内巨头也会发布自己的特色商店。
监控和可解释性
模型监控很重要,因为可能会发生数据漂移或模型漂移。 训练本质上是使用模型来拟合数据的分布。 机器学习的前提是训练时的数据分布与推理时的数据分布一致。 如果在实际业务中,由于某些原因,数据的分布发生了变化,可能是用户行为发生变化、季节变化等,需要对模型的性能进行监控,观察性能是否出现偏差,从而确定是否需要再培训。
另外,在金融、医疗等行业的一些场景下,模型需要具有较高的可解释性,否则无法投入使用。
在模型可解释性方面,DataRobot等机器学习平台公司也参与其中。 此外,还有专门从事模型监控和可解释性的初创公司,例如 Arthur AI。 近期完成最新一轮1500万美元融资,由Index Ventures领投; Fiddler AI 共完成 1320 美元投资,投资方包括 Amazon Alexa Fund、Lightspeed Ventures Partners 和 Lux Capital。
数据应用
在实际应用中,经常会出现这样的问题。 数据科学家、开发和运维人员之间的技术栈存在明显差异。 数据科学家在工程方面相对较弱,但业务人员希望看到AI落地,或者至少具备通用系统demo的能力。 传统上,要上线一个AI系统,需要开发算法、编写后端代码、编写html、css、Js等前端代码,还需要调整接口。 这对于一个算法思想的实现来说其实太沉重了(我自己也有很深的体会)。 数据科学家虽然不需要深入了解所有技术栈,但至少需要了解一点,比较麻烦。
Streamlit是一家非常有趣的公司,其目标是解决数据应用快速开发的问题。 从需求和目标来看,其实和MLOps是一致的。 Streamlit可以作为框架,在不需要了解前端html、css、Js等知识的情况下,快速编写和部署网页,加快数据应用的开发进程。
总结
决定模型效果的影响因素有两个:数据和算法。 现实世界的数据集通常充满噪音。 对于噪声数据,有两种解决方案。 一是修改算法,提出一种可以处理噪声并且具有泛化能力的算法(显然难度更大); 另一种是修改数据集,提高数据集的质量。
算法:
AI领域的现象是学术界会不断提出更好的算法。 对于企业来说,即使本月提出SOTA算法,下个月也可能被超越(除非很少有人研究或者该算法不是开源领域,否则有可能保持持续领先),所以很难企业在算法层面保持持续领先。 如何将AI商业化,如何积累自身优势,构筑护城河,是所有企业都需要思考的问题。
管道级别:
虽然管道与模型的效果没有直接关系,但是良好的管道可以提高模型从构建到部署到生产环境的效率。 Valohai 有句经典格言:“模型是暂时的,管道是永恒的”。
对于ML pipeline这样的基础设施来说,虽然所有的AI都非常重要,但并不是所有应用AI的公司都适合构建完整的ML pipeline。 好像并不是所有的公司都适合构建自己的数据库基础设施。 所有这些都为人工智能基础设施相关的初创公司提供了机会。
GCP、AWS、Azure等云厂商都有MLOps相关产品。 谷歌很早就发现了机器学习的技术债务问题,但大型厂商短期内很难做好,因此谷歌旗下的GV和Gradient Ventures分别投资了多家MLOps工具链上的初创公司。
在通用ML管道方面,为了加快和更好地实现机器学习,大量初创公司在数据准备、模型构建、部署和监控等方面进行了一些探索和创新。
在具体的ML pipeline方面,Rasa、Jina AI等初创公司给出了新的视角。 聊天机器人、搜索不仅可以做成闭源、贴近业务的公司,也可以向下沉淀,做成通用的开源基础设施公司。
数据集质量级别:
“模型是暂时的,管道是永远的”,如果把这句话以数据为中心转化的话,那就是“模型是暂时的,数据集质量是永远的”。
AI应用端的很多公司发表论文、提出新算法,但无法建立壁垒。 正如吴恩达演讲中提到的一个问题:是选择一种优化算法来适应噪声数据(以模型为中心),还是选择优化数据的噪声,然后使用常规算法(以数据为中心)。 显然,以模型为中心的方法更难提高效果,好的模型总会被提出。 整个模型的效果都是学术推动的,公司很难在算法层面保持领先地位。 因此,应用人工智能的企业应该重点关注如何调试自己的闭源数据,提高数据集的质量(数据标注的正确性、一致性以及某类数据的质量)。
企业自身闭源数据质量独特积累的过程,就是构筑壁垒的过程。
型号级别:
从《Attention is all you need》论文开始,Transformer逐渐引起了人们的关注,随后BERT和GPT的提出,一波Transformer浪潮席卷而来,NLP领域发生了巨大的变化。 基于 Transformer 的模型有层出不穷的新算法。 对于算法工程师来说,跟踪和实现新算法是一个不小的工作量。
Hugging Face抓住了这一现象,从Transformers库开始,注重易用性。 在这种股东风格的帮助下,Hugging Face 在 GitHub 上的仓库 Transformers 获得了 4.6 万颗星,累计融资 6000 万美元。 大家都知道,pytorch因其易用性赢得了很多开发者的青睐,尤其是学术界的开发者,他们在深度学习框架中后来居上。
抱脸也注重易用性,构建来自学术界的影响力和生态。 Transformers 库已被 700 多篇论文引用,并被 1,000 多家公司使用。 现在拥抱脸已经从纯粹的开放模型库扩展到开放数据集甚至AutoNLP,这与其他AutoML公司进入AutoML领域的方式有很大不同。
终于
2019年底,rasa和拥抱脸引起了我的注意。 如今,越来越多的AI基础设施初创公司成立并完成后续融资。
从宏观上看,我们已经从基于规则的编程时代迁移到基于数据的编程时代。 软件开发工具链将发生巨大变革,人工智能基础设施蕴含巨大机遇。
从微观来看,目前的AI模型还没有办法直接编写软件,仍然处于大数据、小任务的范式。 我们距离用纯人工智能模型编写软件还有一段距离。 但我们可以从GPT系列中看到一些迹象,也许GPT20到时候就能带来震撼的效果。 目前正处于基于规则的编程系统和基于数据的编程系统并存的阶段。
如下图所示,基于规则编程体系的软件开发工程师和数据工程师,以及基于数据编程体系的数据科学家和算法工程师需要协同工作,于是MLOps这样的工具链的机会就诞生了。
我对基于数据编程系统的创业机会坚定乐观,尤其是人工智能基础设施。 为了更好地帮助AI创业者,我本着开源研究即服务的心态,开源了自己的研究成果,发起了SSAIS项目。
欢迎AI从业者、创业者通过知乎(ID酱油哥Warren)或邮件()与我交流,集思广益,共同探讨AI的商业发展方向。