中国AI力量崛起直追美国但在这些方面还存差距

2017-04-15 10:04:19 948

作为人工国际会议，由美国人工协会(American Association for Artificial Intelligence)组织的AAAI大会在美国旧金山召开，在今年的大会上中国面孔成为不可忽视的力量。在2571篇投稿论文中，中国和美国的投稿数量分别占到31%和30%，虽然在被接收论文数量上，中国还是低于美国，但数量已经大幅完善。

一个小插曲则是，今年的AAAI大会原计划在新奥尔良召开，由于和中国春节冲突，AAAI Fellow、AAAI现任执委杨强教授和几位教授紧急向组委会发送邮件，使得破格更改了时间和地点。

可见，中国在AI领域正在蓄势，逐步成长为中坚力量。据《乌镇指数：全球人工发展报告》，在全球人工专利数量方面，中国以15745个紧跟在美国26891个之后位列，日本以14604个排名第三。值得一提的是，三国占总体专利的73.85%。

华人势力

“不仅仅是学者，来参会的中国公司也变多了。”杨强表示。从今年的活动赞助商而言，百度、腾讯和亚马逊、IBM一并成为金牌赞助商，小i机器人、今日头条也跻身银牌赞助商之列。在今年收录的论文中，百度、腾讯、华为、360、今日头条、携程等中国公司的人工团队也有出现。

百度研究院院长林元庆对财经记者说，过去几年里，她在参加国际上人工领域的会议中，确实可以看到参加会议的华人比较多，而且在过去几年里增长很快。他认为这同时也和几家公司在人工领域的投入有关系。

“中国人适合做人工，43%的人工论文都是中国人写的。”工场李开复曾向财经表示。根据美国白宫此前发布的《国家人工研究与发展策略规划》来看，从2013年到2015年，SCI收录的论文中，“学习”或“神经网络”的文章增长了约6倍，按照文章数量计算，美国已经不是世界。在增加“文章须至少被引用过一次”附加条件后，中国在2014年和2015年都满美国，位居前列。

“这一轮人工并不是一个新的革命，而是18世纪工业革命自动化的一个延续，技术一旦掌握到手里，可以迅速扩展到做全世界的生意，所以这对于中国起到了一个弯道超车的作用。”杨强表示。

中国人数学好、刻苦努力无疑为中国发展人工提供了良好的基础，但更大的驱动力在于产业需求。一方面对于传统企业而言，需要新技术来推动产业变革，“中国的经济结构还有很多不合理、低效率的地方，通过人工浪潮，就形成了一种新的竞争。”杨强强调。

对于互联网巨头或新兴独角兽公司而言，同样需要借助人工技术，激发已经存储的大量数据，完善服务准确度，创造潜在盈利机会，“互联网大市场孕育的应用到C轮需要人工。”李开复表示。例如今日头条在借助人工技术，将新闻内容和视频进行重新排序，实现资讯分发的千人千面，美图也利用人像数据库，对数据进行标记、结构化，优化图像算法。

“全世界只有中美两国有如此大量的数据、大规模的计算和应用场景，在应用层面中美基本处于同一起跑线。”地平线机器人技术兼执行官余凯向财经表示。余凯曾担任百度研究院副院长、学习实验室(IDL)主任，带领的团队将学习技术成功应用于广告、搜索、图像、语音等方面，在此之前他也曾在美国NEC研究院、西门子数据研究部、微软亚洲研究院工作。

在余凯看来，中国有较大的互联网公司，且拥有搜索、社交、电商、互联网金融等很好的应用场景，“大规模的计算平台都需要大规模的应用场景，在小实验室是做不了的，年轻人在这样的工作环境中会得到持续的锻炼，包括工程实验能力、对算法的理解等。”

“较大的优势是人多，这种优势体现在三个层面，人多意味着市场大，有更强的驱动力去把这件事情做好。其次针对社会服务层面，需要很多数据。第三，人才基数比较大，冒出人才相对多一些。”第四范式、执行官戴文渊告诉记者，“从数据量、投入的人力财力来看，中美之间没有多少差距，且中国更有优势。”

中美差异

但将论文数量视为中国人工发展水平有失公允，虽然在靠近商业价值应用层面中美并驾齐驱，但在基础性、原创性研究、土壤、人才储备层面，中国相较美国还存在不小的差距。

“更多是技术的落地、产业化和应用，国外仍然有很多人在公司和研究院做研究，包括寻求方法论上的突破，我们擅长把事情做得更细致，相对而言突破性和奠基性的工作还不够多。”地平线机器人技术联合、算法副总裁黄畅告诉财经。

黄畅毕业于清华大学计算机科学与技术系，曾在美国南加州大学和NEC美国研究院担任研究员，2012年加入百度美国研发中心，2013年和余凯参与组建百度学习研究院，任科学家、主任研发架构师。在黄畅看来，做研究无外乎寻找新的问题和研究新的方法，而在这两方面和国外相比还存在不小的差距。

杨强认为，学习是不断发展的，研究领域的领导者应该是开拓新的领域，而不是在原有的基础上深挖。“把一个10层的模型拓展到100层甚至1000层，我觉得这个确实是一个进步，中国人目前是这个层次，但这些在我看来并不是一个原创。”杨强举例说道。

“现在很多高校是看教授和学生的论文达标情况，会议论文的发表对学生申请院校、教授评级、申请科研经费等都有帮助，真正做出突破性理论研究，不迎合考核体系的少。”戴文渊直言。在他看来，虽然有相当数量的人参与到人工研究，但的研究成果并不与参与人数的激增成正比。

余凯认为，有一些中国学生很擅长“刷分”、“刷榜”。“别人做到99.5%，我做了99.7%，并不一定有实质性突破，世界也没有因为这个刷分而变得不一样。原创性的需要不一样的思考，现在讲学习比较多，所有的人都进行学习，而不是思考What is wrong ?How to be different?”余凯强调。

在人工领域浸染十年有余的戴文渊也有同样的感受，“很多人用力的方向有问题，准确率达到99.1%、99.15%或者99.2%，其实没有什么差别，并不应该把精力用在这些地方，而应该关注不到60分的领域，去把它做及格。”

回归至学习的历史发展脉络来看，正是一个边缘化课题走向主流技术的路径。早在上世纪80年代初期，学习学派的开山人物Hinton一直坚持神经网络的探索，但受限于当时的电脑速度、数据量等问题，学习理论是一项边缘化的研究，当时AI的主流研究方向与之截然相反，推崇小样本学习，主推SVM学习。

正是以Hinton为代表的一群人对学习的坚持，才一步步将边缘课题变成人工核心技术。“十年前进入这个领域，中国学生都在学优化理论，现在一窝蜂地学习学习，很少有人在怀疑学习是不是较好解，就像之前很少有人去思考优化是不是较好解。”戴文渊说道。

人员成本居高不下

在余凯看来，中美之间的差距表现在两方面，一方面是人才储备的匮乏，很多高校在很长时间内并没有人工，而在美国基本上大的院校都有人工教授。以美国卡梅隆大学为例，设有专门的机器人研究所，其中光教授就有100多位，纵向而言，中国布局的时间也比较晚。

早在2012年余凯回国在百度成立了人工团队，担任百度人工研究院执行院长，在他的记忆里，当时在高校招人困难，很多是在招进百度之后再自己培养。

其次从产业链而言，谷歌或者Facebook的人工团队不仅可以从斯坦福等院校招人，还可以从微软、IBM、HP等大公司挖走人工领域的人才，“当时别的企业还想着从百度挖人，无论从科研教育还是整个产业界，起步都是晚的，规模还是小的。”

至今余凯仍会频繁去美国参加一些学术会议，让自己保持更多的思考，“国外技术创业比较多，大家探讨的是数学公式及算法，而在中国大部分在讲趋势、概念，如果PPT上放上公式就变得很无聊，心态比较浮躁。”

资本驱动之下，人工成为创业较火热的领域，也在加速人才的流动。根据华创资本发布的《2016早期企业薪酬调研报告》来看，人工和大数据领域类的早期企业在过去一年的员工离职率44%，人员流动活跃。

“付不起工资、抢不到人”成为人工企业在人才招聘方面面临的较大博弈。“人才比较少，需要的公司又多，人工的人员成本因此居高不下。”戴文渊表示，“我们想要寻找突破常规的人才，需要找到能够将30分的东西做到60分甚至80分的人才，例如目前做学习的人有很多，但迁移学习的人才就少。”

“德才兼备”是余凯选人的标准，所谓德即对人工本身的热情，愿意为之做长期奋斗，而不是短期的。“大部分人是在赶时髦，如果冰天雪地的时候心还是热的，那才叫热情”，才则是数学功底、统计功底、编程能力等等。

“的人才、的研究成果永远匮乏，好比人工领域论文从每年800篇涨到3000篇，但真正出色的论文在数量上基本不会有太大变化，许多人是在随大流、挖坑灌水、解决细枝末节的问题，产生的真实价值并不大。”黄畅补充道。

与O2O、电商等产业不同，人工的技术仍旧需要长期且基础性的理论研究工作，如何从顶层设计出发，加强人工基础理论研究和核心技术突破，加强人工科研人才、技术人才的培养与引进，才是人工发展的持续动力。

人工挑战

一派繁荣之下，正视人工的作用变得更为重要。“相较于告诉人们人工能做什么，目前更重要的反倒是告诉人们，人工不能做什么。”余凯笑着说道。结合当下的发展情况人工仍然面临诸多挑战。

首要挑战就是数据不足的问题。众所周知，人工建立在大量数据基础之上，通过大数据训练，来优化算法模型，以人脸识别技术为例，训练这一算法模型需要至少百万级别的图片数据。

目前人工主要是监督式学习，有监督的训练就需要带标签的数据，因此数据的质量和准确度及输出结果密切相关。“如何剔除数据中的噪音、垃圾信息，获取且带有标签的数据成为新挑战，也正是因为这个原因，半监督式甚至无监督式学习方法必然成为未来的研究热点。”黄畅说道。

另一大挑战在于学习的推广和场景迁移能力不足，领域的数据都需要重新收集、标准和再训练，很难进行跨领域推广。这些挑战也是人工工业界和学术界急需突破的问题。“在招聘的过程中，学习学习的人很多，而懂得迁移学习，具备思辨能力的人很少。”戴文渊表示。反映到人才培养和教育而言，如何引导并鼓励学生进行跨领域、原创性的探索研究重要。

例如今年AAAI较好论文来自斯坦福大学计算机科学系的Russell Stewart、Stefano Drmon，他们所撰写的论文《用物理和特定领域知识让神经网络进行不带标签的监督学习》，就是将物理知识与学习相结合，通过跨领域研究给AI带来新的启发。