Presented By O’Reilly and Intel AI
Put AI to work
April 10-11, 2018: Training
April 11-13, 2018: Tutorials & Conference
Beijing, CN
Xiaolei Xu

Xiaolei Xu
算法技术负责人, 上海新智新氦数据科技有限公司

Website

徐小磊,目前就职于新智新氦科技有限公司,担任算法工程师。新氦科技是新智集团下属,上海的一家大数据基础架构公司。徐小磊目前主要负责新氦深度学习云平台的搭建和基于深度学习,深度强化学习的自然语言处理应用研发工作。

Sessions

14:5015:30 Thursday, April 12, 2018
实施人工智能 (Implementing AI), 模型与方法 (Models and Methods)
Location: 多功能厅6A+B(Function Room 6A+B) Level:
Secondary topics:  AI应用的硬件、软件栈(Hardware and Software stack for AI applications), 设计AI平台(Designing AI platforms)
Xiaolei Xu (上海新智新氦数据科技有限公司)
目前单机多卡训练是深度学习的标配,但是单机的GPU数目总有上限,因此如何通过多机多卡进行高效的分布式训练就尤其重要。比如,如何将简单的单机程序快速部署到多机并得到相应的加速比,如何使得对GPU的调度与大数据处理平台无缝对接,并使GPU成为平台上按需调度、动态扩容的资源,这些问题的解决对算法迭代优化起到关键作用。 本次talk会详细介绍如何基于Kubernetes和Docker构建TensorFlow的微服务化应用,具体从以下几个方面展开:从少量样本数据的单机快速原型设计验证,无缝切换到大量全数据的多机多卡分布式训练过程;一键启动分布式训练,即基于新氦定制的深度学习云平台,用户无需关注分布式细节,可直接通过可视化web界面进行分布式参数配置和训练代码提交,并可实时可视化监控模型训练收敛性、系统资源消耗和模型输出日志等;模型训练结束后可实时serving将模型快速部署到生产环境。 Read more.