English中文
将人工智能用起来
2019年6月18-21日
北京,中国

领英基于Spark和TensorFlow的大规模AI基础架构

此演讲使用中文 (This will be presented in Chinese)

Min Shen (LinkedIn)
11:1511:55 Thursday, June 20, 2019
企业人工智能 (AI in the Enterprise)
Location: 多功能厅6A+B (Function Room 6A+B)
Average rating: ****.
(4.00, 1 rating)

必要预备知识 (Prerequisite Knowledge)

  • A basic understanding of Spark and TensorFlow

您将学到什么 (What you'll learn)

  • 开源Spark和TensorFlow在企业级大规模应用中有哪些挑战
  • 领英是怎样“生产化”人工智能流水线的

描述 (Description)

正如领英人工智能负责人Deepak Agarwal总结的,_“人工智能就像领英的氧气"_(https://engineering.linkedin.com/blog/2018/10/an-introduction-to-ai-at-linkedin)。我们的所有主要产品,而且包括很多内部的增长分析,都极大的收益于机器学习模型。

在领英的规模下,构建一个可以在产品中稳定运行的机器学习模型是一件很有挑战的工作。首先,在10到100TB数据的规模下,数据准备和特征工程会遇到很多困难。比如数据集大小突然变化,数据倾斜,超大规模连接(skewed join)。我们会介绍我们团队是怎样逐渐把领英的数据处理从旧的MapReduce/Pig框架迁移到Spark,并且在Spark上做的创新。我们还会介绍我们为了解决超大规模的图问题,开发的特殊算法。

其次,在模型训练阶段,我们会着重介绍我们从基于Spark的线性/树形模型到基于TensorFlow的神经网络模型的演进。在这里我们还会介绍近期一些成功的运用深度学习模型改进产品的案例。

最后,我们会和大家探讨我们对于未来AI基础架构的计划和愿景。我们认为,现在的人工智能(AI),大数据(Big Data),和云计算(Cloud)这ABC三个生态系统之间还是有不小的隔断。怎样融合它们是一个我们需要努力的方向。

Photo of Min Shen

Min Shen

LinkedIn

Min Shen is an engineer on LinkedIn’s Hadoop infrastructure development team, helping to build next-generation Hadoop infrastructure at LinkedIn with better performance and manageability. Min holds a PhD in computer science from the University of Illinois, where he focused on distributed computing.