联系我们
苏州乐佰图信息技术有限公司
电话:0512-6298 7589
邮箱:james.cao@hawk-eye.cn
地址:江苏省苏州市星湖街218号生物纳米园A4栋3楼320单元

学术界做视觉智能研究像恋爱中的男女,工业界做研发则像结婚后的男女

2018年12月17日「新一代人工智能院士高峰论坛」在深圳隆重开幕,360 集团副总裁、360 人工智能研究院院长颜水成博士于17 日下午主论坛第三位出场,他的演讲题目是《视觉智能:从攻坚到闭环》。以下为他的演讲内容:

非常高兴今天有机会在这里做一次很特别的分享。我的背景比较特殊,我在学术界待了大概 8 年,进入工业界也已经有 3 年了,今天的分享包括两方面的内容:一方面我想跟大家分享一个比较有价值的深度学习模型结构;另一方面我想根据我在工业界的 3 年经验,谈谈对人工智能研发,特别是智能视觉研发的两点感悟。

在学术界和工业界进行视觉智能研究,差别是非常大的。但在学术界研究视觉智能,更像是一个个人攻坚的擂台赛,大家可能是针对某个具体问题、具体数据,去不停地设计新的算法,从而提升其性能。是在工业界,则更像是一个综合的闭环的大战略,研究已不仅仅是某个小团队的事情,类似一个大战役,你可能需要后勤、医院,需要海、陆、空军进行协同作战,才能保证这场战争的胜利。所以我觉得在工业界做视觉智能研发很重要的一点,就是要回归商业的本质,要把视觉智能研究放在价值闭环和数据闭环上进行思考和推进。

针对学术界,今天我跟大家分享 360-NUS联合实验室近期在视觉智能领域的一个最新研究成果——Global Reasoning Unit。我们发现有不少人在思考这个问题:当我们用深度学习做推理的时候,都是在用卷积神经网络进行推理,然而卷积神经网络在浅层网络无法感知远处的目标。那有没有一种方式可以在浅层网络就能实现很好的感知远处目标呢?

由于我的团队是 1×1 卷积的推动者,因而在想尽量用 1×1 的卷积方法来实现这件事情。我们有一个想法:是否可能在任意的网络插入一个模块进行学习。为此,我的学生Yunpeng CHEN提出了一个思想,叫做 Global Reasoning Unit,将 5 个 1×1 的卷积以模块的形式插入任意网络做学习,在浅层网络就能对远处的目标进行感知,使跨区域进行信息交换成为可能。无论是在分类任务,还是在其他的检测、分割任务中,这种方法都能有效提升现有网络的性能。我觉得无论是在手机端还是智能硬件设备上,Global Reasoning 都将会有不错的价值,所以今天在这里特别跟大家分享这个方向。

接下来我将针对工业界,跟大家分享一个研发需要注意的事项:在工业界做研发一定要回归商业本质,必须将我们的研发放在价值闭环和数据闭环里面,去不断地思考和推进研发进度。

什么叫价值闭环?我估计现场很多朋友读过一本书,叫《创新者的窘境》,里面思考的问题是:为什么一些好的技术在大公司里面并不能被很好地利用起来?其中分析到的一个主要原因是,这些技术对于技术创新者来说,可能是一件非常嗨的事情,但是对于产品方、最终的用户以及生态中完成销售环节的公司来说,可能并没有带来价值的提升。也就是说,当技术没有给所在闭环中的其他维度带来真正的价值,它的落地会非常困难。因此,在工业界做研发,我们的核心任务已不仅是「炫技」,还需要对所在闭环中的所有维度带来正向价值,从而保证技术的落地和最终应用。

《创新者的窘境》这本书中提到了四个维度:技术、产品、客户和企业。不过我认为做视觉智能方面的研究,还有一个非常重要的维度,叫做社会价值观。当技术落地到一款产品时,如果它本身的社会价值观不正的话,就不能产生正向的推动作用,这款产品迟早会失败。因此,我将价值闭环分成了五个维度,其中,不同维度之间相互依存,并通过彼此的驱动来提升各自的价值。比如说技术和产品:新的技术孵化了新的产品,而产品收集了更多场景下的有效数据,又反过来推动技术的迭代;产品和企业则是相互促进的,产品质量和销量的提升,可以提升企业的品牌和利润,而企业品牌又反过来会带动产品的销量,同时企业赚取利润后,会加大技术投入,从而提升产品的质量。而企业和社会价值观则是大家更需要注意的一点:企业文化造就了社会价值观,员工的价值观也会影响企业的效率,其中最重要的一点是,企业永远不能触及伦理道德的底线。

另外,在工业界做视觉智能研究,尤其是做视觉智能相关产品的时候,数据闭环也非常关键。研究者可能更多地关注算法模型,不过算法模型和具体产品的后台与用户的交互就形成了一个数据闭环,它是一个发现问题和迭代产品的过程。

为什么要将研发放在一个数据闭环中呢?无论是做计算机视觉还是其他方向的研究,有一点是非常明确的——就是永远没有完美的算法,在这种情况下,数据就变得非常关键。我常思考并与一些人进行讨论的问题是:为什么中国会出现这么多做人脸识别的公司,并且这些公司都还生存得非常不错?其中的一个核心原因是每家公司都具有特定场景下(如银行、交通监控、公共监控等)的数据优势,而正是这些数据能够让它们去不断优化模型,实现特定场景下更佳的表现。用户的反馈才能让我们在研究中真正发掘他们真正的痛点和需求,因此数据闭环对于工业界的视觉智能研究至关重要。

我自己也感觉到,当我们将研发放入一个闭环的环境中,其所涉及的每个环节只有在稳定、可靠的情况下,才能让算法和研发人员去很好地推动技术向前迭代。再以 360 的门铃为例,一旦服务端的产品联网延迟问题严重,用户很长时间才能收到家门口的监控信息,就无法获得良好的体验,另外如果 APP 的设计不够好,云端的数据分析结果就无法很好地通过 APP 让用户直接感受到这款智能设备所带来的价值,进而也让用户难以产生有效的反馈,这样的话,闭环的迭代也会变得异常困难。

无论在学术界还是在工业界,大家做视觉智能研究都还是挺辛苦的,经常面临加班和熬夜,所以今天我想用一个比较轻松的方式来跟大家总结一下,在学术界和工业界做视觉智能研发的不同的特点:

在学术界做视觉智能研究更像恋爱中的男女,每一点进步都让你们激动无比,同时还希望不断地有新的进步,达到新的高度。看到的全是对方的优点,你们总是不停地憧憬,因为暂时没人催你生孩子(产品)。你们也会憧憬生一个小孩(产品)会有多么美好,认为这个孩子一定会是世界上最聪明、最乖巧的,因为反正不用真的把孩子生出来。

而在工业界做研发更像结婚后的男女,发现生娃(产品)成了你们最首要的任务。父母(公司老板)天天催着你生娃(产品),你们以为孩子生出来以后会很乖巧,结果生出来以后才发现一堆的问题、一堆的毛病,社会(用户)也不喜欢他/她,于是你不停地根据经验和用户反馈进行调教。最后孩子强大了,你头发白了,脊椎也坏了,但看着孩子(产品)还是一脸的满足幸福。