预式明言 让普通人1个月成为人工智能专家的“先知平台”是怎样炼成的?

 

虽然各大公司纷纷开源了自己的机器学习框架,但机器学习仍然非常“昂贵”,遥不可及。...



随着大数据的积累和算法技术的进步,越来越多的公司希望借助机器学习来解决实际问题。然而虽然各大公司纷纷开源了自己的机器学习框架,但机器学习仍然非常“昂贵”——比起安装即生效的软件,机器学习过程需要完成问题定义、数据接入、特征工程、算法调优、上线应用等多个环节,并且技术与业务结合非常紧密。

斯坦福大学等多家机构发布的人工智能报告均提到,实现新技术落地和部署对人工智能“解决实际问题”非常重要。而第四范式的人工智能应用者开发平台“先知”,正是基于这样的愿景产生。那么,先知是怎样做的呢?第四发生联合创始人、系统架构设计专家胡时伟分享了开发先知的心得经验,这也是范式团队首次披露设计、研发、部署先知的整个过程,干货满满、全程高能。具体如下:



胡时伟:

第四范式联合创始人

AI界全能大神

系统架构设计专家


曾主持架构了百度“知心”系统与链家网系统

1


诞生——让人工智能更加灵活易用

在胡时伟看来,“先知”就是为了让人工智能更加灵活易用——从数据管理、模型优化到系统上线的机器学习应用全生命周期整合开发平台,提供端到端的机器学习能力,进入先知平台的是企业业务产生的数据,出来的则是人工智能服务。提到先知平台诞生的初衷,首先需要谈一下完成机器学习解决方案的几个步骤:

  1. 问题定义——确定具体的问题,如精准营销、风险识别等,这一环节需要机器学习专家深度理解业务、从而确定恰当的模型优化目标。
  2.  特征工程——如何将既有数字、文本,又有图像的数据组织起来,使其适合模型算法的要求?如何进行变换组合能够更加契合模型的优化目标?这是特征工程的工作。
  3. 算法调优——包括选用什么用的算法,以及如何进行模型参数调优,这些需要考虑模型的各种参数(网络层数、正则化、学习率、树的深度、节点数量等)与数据、业务目标的关系,并且需要拥有相当经验的专业人员进行探索。
  4. 模型评估——人工智能不仅仅是一个技术问题,并不是所有问题都能够显而易见地用A/B测试来评估,如何确定模型评估机制也是一个难题。
  5. 线上应用——是指如何把已经调好的模型变成一个线上应用的服务,例如变成一个在线实时的图片识别或人工翻译的软件。
  6. 模型迭代——模型上线后,基于不断产生的新数据进行模型自学习更新,达到快速响应外部变化的模型效果。
(机器学习的各个环节与对应专家类型)
用机器来代替人、对每一个决策起作用,这件事情听起来很fancy,但是拆解来看,这需要让传统研发团队理解机器学习的算法、架构,需要让机器学习专家充分了解业务,甚至还需要改变业务流程来使机器学习模型变得更加有效。对一个公司来说,完全从0搭建,需要大量的一次性资源投入,并且容易踩“坑”,成功率得不到保证。

如果能够利用技术、算法和实践经验,建设一个通用的机器学习系统,来自动完成以上这些机器学习的步骤,就能使AI应用到不同场景的代价变小。先知平台就是让第四范式的数据科学家完成了这些工作,并把这些能力封装成易用的产品,以供普通人使用。
2


功能——做人工智能的“傻瓜机”

先知平台定位于一套完整的平台,能够提供开箱即用的优秀算法、稳定可靠的系统架构、灵活易用的操作界面和API,使得人工智能系统的构建更接近于“傻瓜机”。

算法是机器学习产生价值的底层,不够成熟的算法需要人为干预和调整的很多,而成熟的算法则相对易用与高效。先知的强大,主要得益于它背后的核心计算框架GDBT。GDBT最主要特点是对分布式支持数据并行化和计算并行化。机器需要学习,分布式的机器学习就如同把1000本书发给1000个人,等学完之后大家互相交流、议论学习,这个过程可能需要10轮、20轮甚至更多,所以分布式学习里面涉及到的是人与人之间的协作,如果对应到系统,就是机器与机器之间知识的交换。针对这种机器学习方式,GDBT框架能够做到的是,相当于每个人手里有一支远程激光笔,大家拿到1000本书之后同时在大屏幕上直接修改,改完之后再进行新的一轮。这样的算法优化与机制变化减少了无效的数据传输过程,保证了先知平台在处理海量数据时速度提升数百倍以上,并且可支持万亿样本量、万亿级特征量数据建模,实现真正的“大数据”建模。

其次,GDBT能够同时支持连续、离散这两种数据的融合训练,保证模型可以充分利用对一件事情产生影响的更多的特征。过去做模型,由于算法和资源的限制,往往不能很好地利用大规模离散特征。但对于企业应用来说,比如销售、金融、风险这样的场景更多的是离散数据,诸如某人过去去过哪个商场、GPS行政区域等。而GDBT,是极少数的能支持大规模连续、离散这两种数据融合、又是分布式的框架。
先知平台内含强大的机器学习算法框架GDBT;在外部的交互上,还特别注重客户体验的提升。先知是应用者开发平台,因而希望通过一个统一的易于学习的操作界面来满足多种多样的开发需求。先知的目标用户处在不同阶段,有的用户自己有能力开发算法、有的更多是应用算法。对于自己可以进行算法研究的客户,GDBT平台拥有开放的算法设计接口,可以快速利用已有框架实现新的算法;而对于应用算法的开发人员甚至是业务人员,先知平台提供包括交互式图形界面、动态语言SDK在内的多种交互模式,配合多种模型自动优化技术,以及内置的多类业务建模模板,以供处于不同阶段的用户快速构建出适合业务的模型、系统甚至业务应用,降低使用机器学习的难度。

此外,先知平台内还封装了数十项最新科技与专利算法,包括数据免清洗、特征优化、自动参数调优等领先技术,帮助用户获得较好的模型效果,在这些功能的共同作用下,先知平台最终能够实现1个月内让普通业务员成为人工智能专家。

目前先知产品已经应用于金融领域的差异化定价、风险管理等业务,以及互联网领域的个性化推荐、精准营销等优化目标中,在实践中帮助众多企业赢得优异的终端用户体验和更强的收益能力。其中的典型案例包括为某股份制商业银行搭建信用卡分期精准营销系统,通过收录千万级客户半年数据、数千万条短信营销记录、数亿条交易流水记录,采用100+特征栏位,其中80%为离散特征,全数据无采样训练,最终实现了响应率比专家模型提升超过50%。

胡时伟表示,随着企业数据资产从数量、维度的全面提升,互联网化带来的触达和服务客户方式的本质转变,希望无论是产生数据的行业,还是能够使用数据的行业,“先知”都能够对其产生影响。希望未来企业不需要花费高昂的人力成本争抢稀缺的AI人才,不需要花费巨大的代价从0构建AI基础设施,也能参与人工智能时代的进程,分享人工智能的价值,达成AI for everyone的最终目标。


    关注 第四范式


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册