二十一世纪计算 | 人工智能如何在行业中落地?

2018-11-30 | 作者:微软亚洲研究院

编者按:在第二十届“二十一世纪的计算”大会上,微软亚洲研究院副院长周明主持了一场题为“人工智能的行业实践”的圆桌讨论,4位微软亚洲研究院的院友(科大讯飞副总裁李世鹏、字节跳动副总裁马维英、旷视首席科学家孙剑、清华大学教授徐迎庆)参与了讨论,大家就人工智能发展过程中的技术问题,对人们生活的影响,以及未来的发展方向等问题分享了自己的看法。


 

主持人:未来人们获取信息的方式会出现什么变化?信息流和搜索引擎之间是什么样的关系?未来信息获取的发展趋势是什么?

马维英:从目前整个市场上的应用来看,连接人和信息主要有四个方式,第一是在PC互联网时代,信息大部分在网站或网页上,搜索引擎帮助人连接信息;后来到移动互联网时代,内容更多地出现在平台上,推荐引擎能更好地了解用户的使用行为,提供个性化的推荐,推荐引擎连接了人和信息;发展到今天,我们可以看到越来越多的私人助理,如Siri、Cortana、Google Assistant等,它们已经逐渐成为了新的连接人和信息的方式;第四个管道是社交网络或社区。这四种方式今天都有机会重新再用AI来定义。

大家看到目前这些进展,一定有机会重新再把这些问题好好思考一下,如何用最新的技术,更大的数据,做出最好的表达方式。另外,我觉得多模态在未来也是一个机会。在今日头条的内容平台上,我们发现有文字、新闻、图片、视频、直播、问答、AR、VR,全媒体、全信息彼此都在关联,所有信号都是连接在一起的,而在传统AI领域,各个部分是相互独立的,但其实大家可以利用一些新的思路把不同数据之间做逆向学习、对偶学习、迁移学习或是多模态的集合学习。任何技术进步都会回到刚刚提到的四个应用里面,AI一定有机会再发展出下一代的形式。

主持人:在选择视觉落地的场景时,哪些场景是最有道理的?怎样找到一个特别好的切入点,在激烈竞争的环境中胜出?

孙剑:其实CV(Computer Vision,计算机视觉)有个很有意思的特性,它其实是解决图像,特别是摄像头拍摄的图像问题的。我们周围的摄像头特别多,例如室内摄像头、室外摄像头、手机摄像头、机器人摄像头、医疗摄像头、车载摄像头等,它的输入形态特别丰富,输出也就有很多,并不是你要把这个图翻译成一个句子,而是你要检测识别哪个物体,知道它在做什么,知道他是谁。目前的现状是国内外CV公司都特别多,但由于对应的场景很多,每个公司能够聚焦做的事情不会特别多,各个公司有各自擅长的不同方面,经过几年的发展,逐渐会有一个分化的趋势。

另外,从大的场景来说,数字化程度越成熟,数据越多的场景或行业,会越容易落地。比如我们最早选择的都是联网的金融行业,后来又做了在中国很早就建设了的安防行业,通过IPC的形式,一根网线就给摄像头提供电,并把所有摄像头都连在一起,这些数据都已经数字化了,而且数据非常多,做起来会比较容易。但有些行业落地就比较困难,比如无人车领域,它的周期会很长,医疗方面缺乏高质量且大规模的数据。这就要求我们在选择的时候,要做出理性的判断。

主持人:如何把不完全成熟的技术巧妙地应用在一个应用场景里,既能让用户满意又能创造一定的效益?

李世鹏:在AI时代,大家对AI的期待值过高,认为AI可以做所有事情,甚至可以取代人。尽管目前在很多领域AI已经取得了不错的成绩,而且能帮助人做很多事情,但是AI远远没有达到成熟水平。在这种不成熟的情况下,人跟机器之间的交互、相处以及合作的形式就显得特别重要,机器的智能和人的智能是一定要结合在一起的。

有很多原因可以说明人工智能需要人的智能介入的必要性。首先,至少在现今,人工智能的主流结构还需要标注的数据,而标注的数据本身就需要人的智能在里面;其次,我们要考虑在机器不工作的时候,人应该如何切入的问题。比如自动驾驶,如果人用辅助驾驶模式太习惯了,一旦有突发状况,人根本没有应对的准备。这就涉及到人机配合,机器在帮助人提高效率的情况下,人也不能完全依赖于机器。

另外,人与机器之间要和谐工作,机器智能和人的智能相互配合才能把人的体验做到更好。以医院使用AI读片为例,机器读完之后医生还需要再看一遍,纠正机器的错误,AI看起来提高效率但实际在降低效率。这就涉及到新的设计,比如在AI读片过程中清楚地区分需要人再进一步看的关键领域,以及很大程度上不需要再看的领域,以此实现真正提高效率的目的。我认为这些实际问题是将来所有人工智能产业都会关注的问题。

主持人:人机交互与终身学习领域目前的焦点和发展趋势是什么?

徐迎庆:2002年,我在微软亚洲研究院的时候发表过一篇40毫秒可以从高兴、正常、愤怒、害怕四种情感里判断出上一句话各种情感所占的百分比的论文,当时也许因为没有这方面的需求,大家并没有什么反应,然而随着时间的推移,现在越来越多人开始关注和思考这个问题。那个项目我当时请了电影学院教电影台词的老师作为顾问,仅仅是“你好”这两个字,那个老师随随便便就可以用140多种情感来表达,让我感受到了语言的魅力。现如今,市场上有很多具有对话功能的智能音箱,其实在人和人的实际交流中,人交流的声音情感是非常丰富的,可能性也非常多,同样的意思用不同的语音语调说出来是完全不一样的,系统需要给出不一样的反馈,但是目前我还没有看到某个音箱具有这样的功能。

我们目前也在关注多模态的用户体验交互,比如把嗅觉和情感的声音理解和识别放到一个驾驶环境里,可以分辨出满身酒气的潜在危险驾驶者,这在一定程度上能减轻酒驾带来的交通隐患,保护公众的安全。我想,在这个领域还有很多跟人工智能有关的。就拿语音这样一个简单的事来说,有时候人会掩饰自己的情感,但如果在实验环节用红外探测仪识别面部的时候,人是无法掩饰的,因为面部的温度可能有所变化。根据这个再结合传统影像数据,也许可以引出一套与传统不一样的数据集,这套数据集可能就会对未来某一类识别有帮助。这些都是我们正在探索的。

从左至右:周明、马维英、徐迎庆、李世鹏、孙剑

主持人:在小数据的情况下如何构建人工智能系统?

孙剑:现有的解决小数据小样本问题的方式中,最直接的是在所有数据上训练非常大的模型,像BERT一样预训练一个模型,遇到少量的数据就去微调这个模型。还有一个路径是用GAN的方式生成小数据样本,样本虽然不能作为完全替代数据,但作为辅助还是很有用的。除此之外还可以通过把不同任务的数据放在一起来训练,缓解小数据的问题。

徐迎庆:人工智能这个词可能会让大家误以为是机器在模拟人的智能,但实际上人的认知不是靠大数据,而是一个个小样本集合而来的。另一方面AI的发展使我们的计算能力,甚至思考辅助能力都大大增加了,推动了人类在各个领域的思考和尝试的快速进步。但是,我一直觉得人工智能的发展还是需要和认知学、脑科学、脑神经联系起来的。我们需要回归到本原,研究人从生理上、医学生理上、生物生理上或者心理认知上以及认知机理上到底是怎么学习的,这些问题对于未来推动人工智能的发展可能会有一定帮助。

马维英:很多做人工智能有关的研究的确需要算力或大数据,北京很多大的互联网公司在内部会为业务和工程产品上的需要搭建一些非常大规模分布的、能够支撑异构的计算平台。最近我也有幸参加了北京市政府关于“如何帮助学术界和创新企业更好地解决算力和数据共享问题”的讨论,我相信在不久的将来,北京市政府将联合企业、学术界以及高校一起创建更开放、更共享的计算平台,实现数据共享,这样一来将会大大舒缓学校或小公司因资源欠缺限制创新发展速度的问题。

主持人:从学生的角度来说,想要进入人工智能领域,需要具备什么样的技能?

孙剑:我认为不需要弄得过于复杂,编程能力是基础,尤其是在初中阶段,甚至有些小学就已经开始学。对于更小的孩子,可以做些启蒙教育,我有时就会带女儿到公司来看一些实时互动的展示,这样能激发孩子的兴趣,也是能影响非常深远和广大的做法。

徐迎庆:我觉得人工智能是可以研究的,但人工智能不是教出来的。我一直认为人工智能是一个交叉学科,不是通过简单的编程或会一些算法就真的能理解人工智能,人工智能需要一个多结构的团队在一起合作去探索、去研究。我会要求我所有的研究生每个月必须读一本跟专业无关的书,一定是厚书,一定要把自己的知识从本科中跳出来,看看这个世界上其他人是怎么思考问题的,因为你个人的智能不代表人类的智能,人类的智能还是有一定模式的。

马维英:以前我们在微软亚洲研究院招生的要求是数学好、编程好、态度好,但我个人认为人文也很重要,不要变成纯粹只学理工。未来的世界AI都可以编程,也许编程人员的很多工作都可以被机器取代,所以我觉得更广泛的人文素养和知识才是能让人受益一生的。

李世鹏:大家把AI太神化了,AI只是一种新的计算的方式,从这个角度来讲,历史上所有计算都是这样的,所以不用怕,入门门槛也没那么高。

主持人:对广大青年学子有什么寄语?

孙剑:回到人工智能大主题,我们目前大致知道人工智能要做什么,但并没有具体明确的目标,人工智能到底要多少年后就怎么样,时间线也没法预测,我自己预测几百年后才会有非常大的不一样,但无论如何我们还是要坚定地往前走。路漫漫其修远,我辈将上下而求索。

李世鹏:我总结了6句话:守得住初心,耐得住寂寞,抵得住诱惑,顶得住压力,扛得起打击,经得起检验。微软亚洲研究院这么多成功的人,不管现在在研究院,还是从研究院走出来的,都要有这样一个决心才能把事情做好,才能把自己培养成一个有用之才。

徐迎庆:追随智慧,无问西东。

马维英:微软亚洲研究院的成功之处在于你可以跟其他优秀的人一起学习,我希望大家都能够找一个有很多优秀的人的地方,从他们身上得到启发,不断学习,永远学习,人生才能够不断前进。

标签