分享嘉宾:邵浩博士 vivo 算法专家

编辑整理:于薇

出品平台:DataFunTalk

导读: 目前AI技术受到了各大手机和智能设备应用厂商的广泛关注,尤其是基于深度学习的自然语言处理(NLP)因其丰富的应用场景,带动了大量快速增长的应用落地,如机器翻译,搜索推荐,问答系统,聊天机器人等。如何将自然语言处理技术应用于不同任务场景,成为了人工智能从业者非常关注的问题,也引发了很多工程师的探索性实践。今天会和大家分享下关于落地AI产品的一些具体思考。

今天的介绍会围绕下面三点展开:

  • 当前AI的发展情况
  • NLP和语音助手的发展情况
  • 怎样做好一款AI产品

01 当前AI的发展情况

技术思维和产品思维是兼容而且相互补充的。举个例子,假如有一位程序人员开发了一套关于手势交互的深度学习算法,可以把算法的效果在试验用的标准数据集上提升5%的准确率,然后利用GPU的推理可以把速度降低到200毫秒,自然而然会认为这是一个不错的与电视厂商合作的机会,利用手势交互实现电视台换台,开关机与调控音量的功能。但这里有几个问题,接下来会告诉大家,技术人员最常见,最容易犯的四种错误。

第一个就是好高骛远,我们经常会做一些技术无法达到人类期望值的事情,比如怎么样识别猫狗的语言,以及聊天机器人和人类能够自然对话等。技术具有天花板,就不可能在产品上有非常好的一个表现。

第二个是外强中干,一些算法其实没有办法达到手机端上的实际要求,比如进行手机的端侧GPU推理势必带来耗电量增加,如何重构端侧算法也是需要考量的一个问题。

第三就是得不偿失,指的是成本控制较差。上述的手势交互算法要投入非常大的成本去进行数据的采买,然后还要投入非常多的人力去进行算法和数据的清洗。产品方法论里面有一个非常经典的公式,这个公式是“新体验-旧体验-替换成本>0”。上述例子里替换成本就是从遥控器这样一个使用习惯,迁移到用手势交互来控制电视这样一个使用习惯,这个公式值是远远小于零的,所以这种算法在实际中很难去落地。

最后一个问题就是南辕北辙了,算法人员往往没有关注用户最本质的需求导致用户需求与技术不对等。

举一个简单的例子,最近有很多新款手机已经搭载了新一代的骁龙888芯片,如果技术人员用技术语言去描述这样一个手机产品的话,会是什么样的呢?可能会有下面的文案:这款手机搭载了最新一代的骁龙888芯片,搭载了最新一代的LPDDR5内存,搭载了USS3.0高速存储,有120赫兹刷新率,全面适配Wi-Fi6,还有超强VC液冷散热。不过用户关注的是这样的数字吗?在购买手机的业务场景下,除了那些极客用户之外,真正的用户购买手机不是关注数字,而是手机能带给他们实际的体验。如果用面向用户语言去描述同样一段文字,应该是,“你看我这新出的一款手机,它打游戏是不烫的,用起来一点都不卡,能待机一整天,看视频非常流畅,网络刷剧相当快,而且手机电量十分钟可以充一半,半小时可以充满”,这样的话其实就是在用面向用户需求的语言去描述产品,所以这个例子其实想说明技术人员非常需要关注用户的需求,用更接地气的营销手段去实现营收目标。

AI 进展及趋势

Gartner每年都会发布人工智能的成熟度曲线,在今年发布的成熟度曲线里,我们发现有几个非常明显的变化,首先机器学习,深度学习以及计算机视觉,FPGA和聊天机器人,它们已经走入了成熟期,也就是说还有两到五年的时间就达到平台期。而对于自然语言处理,自动驾驶,通用人工智能,都还有非常长的时间才能够达到成熟期。从自然语言处理的角度来看,取得突破的时间远比计算机视觉要晚。其中有一个原因是没有特别好的方法去进行自然语言的表示。2017年出现的transformer给自然语言处理领域带来了新的突破,2020年底的GPT-3又再一次刷新了人们的认知。

有一种说法判断一个AI技术是不是达到了它的平台期,就看在这项技术领域有没有人获得了图灵奖。我们很欣喜地发现,2018年深度学习的三位大牛获得了图灵奖,也就标志着深度学习从高峰期走向了成熟期,后面的深度学习应用基本上都是围绕着产业应用来进行的。

最近两年AI的发展其实是呈现一个冷静趋势,非常多的明星企业面临了衰落和倒闭。包括Anki Vector Robot, 芯片新星Wave computing 以及吴恩达夫妇投资的drive.ai,还有大量自动驾驶,头戴式VR眼镜和聊天机器人公司,都倒在了上市之前的道路上。从AI投资的角度来看,前几年投资人主要关注这个团队有没有明星的科学家,例如有没有图灵奖获得者,有没有大牛存在,然后就更关注算法效果是不是国际领先的,再到这两年,大家更关注的是有没有落地的案例,有没有客户,以及公司的收入如何。

02 NLP和语音助手的发展情况

我们可以看到,从2018年开始,世界范围内人工智能领域的融资额大概下降了65%,整个AI行业实际上是遇冷的。但是在手机上我们还是能看到非常多的AI产品落地。

例如下面两个例子:

计算摄影:

使用手机拍照时,手机会自动帮我们进行一些矫正或者是图片增强,实际上用到的就是计算摄影技术。计算摄影是用数字计算,而不是用硬件设备实现了高清影像捕捉技术,最早是由谷歌在pixel1代手机上所提出来的。经过了多年进化,到了iPhone的A13和A14芯片的时候,整个计算摄影技术基本上可以和谷歌的技术所持平,我们使用手机拍照时,使用50倍放大拍摄月亮,就是用到了计算摄影技术。

语音助手:

语音助手其实是一个结合了语音,自然语言处理,知识图谱,还有多模态交互技术的集大成者,而其中最核心的技术仍然是自然语言处理。

iPhone的Siri,vivo的Jovi,小米的小爱同学,三星的Bixby,华为的小艺,oppo的Breeno,谷歌的Google assistant,是各大厂商语音助手的相关产品,但实际上,这些语音助手的表现,仍然无法达到人类的期望值。其中一个原因就是技术的天花板限制,还无法做到能与人进行自然交互的水平。在人类的交互过程中,会基于情境、说话对象、时间、地点,以及很多我们所拥有的人生经验和知识储备,目前来看语音助手没有办法达到这样一个水平。在2017年第二代预训练语言模型出现之后,自然语言处理技术有了突飞猛进的发展,但即便如此,我们也会发现其实很多的底层技术都是在冰山以下的,所以像NLP的基础技术,自然语言理解技术和知识图谱,以及我们的阅读理解,观点挖掘等等,都是属于水平线以下的。

最近刚出现的GPT-3带来了让人惊艳的效果。但需要极高的训练成本,而且本质上GPT-3实际上是一个概率模型。在语音助手这样的交互类产品上,我们也不可以保证GPT-3所有的回答都是准确的。这也就带来了一个问题,我们希望手机上每一个产品的效果都是确定的,那么AI的一个非常大的特点就是它的不确定性。在技术链条里面,我们尽可能的不敢去用,或者是不倾向去用这样一些深度学习的技术,因为使用这样一个黑盒技术,很可能带来结果的不可控。

如果把语音技术助手这样一个产品比作是一个木桶的话,这个技术是有自己的一个短板的,技术短板不仅仅包括在自然语言处理,还包括在语音唤醒和语音识别等,比如降噪技术中的鸡尾酒会效应问题,如何在非常嘈杂的环境下去做到语音识别的准确度,这都是我们现在目前的技术所没有办法突破的短板。

因此,在技术的短板限制下,我们能够在前台感知到的产品形态其实很有限,包括刚才提到的语音助手,搜索引擎,输入法这样一些技术可能都属于我们能够看到的自然语言处理表象技术,除了不断提升技术天花板之外,还有很重要一点就是通过产品手段尽可能弥补技术短板。

03 怎样做好一款AI产品

所谓说,技术不够,产品来凑,接下来就聊一聊如何通过一些产品的手段去弥补一个技术的局限。

首先,我们可以尝试降低用户的预期,不要让用户觉得语音助手什么问题都可以回答,什么话都可以说。另外,还可以从声音交互或者视觉交互角度,给用户一个不同的惊喜体验,让这个产品的表现力和产品效果变得更好,比如说我们可以用一些情感化的语音合成,让用户觉得这个产品是有生命感的。再比如iOS14,它对Siri进行了一个大的改版,我们就可以看到它的图标是非常具有灵动性的。从交互形式的改变,可以大大提升用户体验。

那么下面我们重点来谈谈如何做好一款AI产品。

首先,对于技术人员而言,我们要想好三个问题。第一个问题就是我的用户是谁,第二个问题就是我的用户想要什么,第三个问题就是我要做一个什么样的一个产品。

当我们能够精准定位我们的目标用户后,就要开始关注手机用户的四种需求:连接他人-用户和其他人的交流渠道,包括电话、微信等;连接本机-用户在手机上获得各种体验,如看视频、听音乐、拍照、办公等;连接外部服务-用户通过手机连接外部世界,如外卖、打车等以及连接设备;用户通过手机连接其他设备,如设备互联、电子车钥匙、投屏等。我们需要思考我们的产品满足用户哪一类需求。

手机产品也分为:工具型产品,交易型产品,内容型产品,以及游戏型产品。工具型产品可以解决用户的一些特定问题,可能是用完即走的。我们可以拓展它的一些产品外延,让用户留存下来。游戏型产品更关注用户的娱乐体验。确定了要做的产品类型之后,下一步就是要明确产品的核心目标。

但要注意的是,工具类产品的核心指标是用户体验。算法工程师其实存在一个比较大的困惑,如何用数据去度量用户体验这个比较虚的目标。最常用的一个度量指标就是用户净推荐值,具体来讲就是去问用户“你是否愿意将这个产品推荐给你的朋友或者同事”。更进一步,我们可以设置一个北极星指标,例如产品日活,然后结合每个模块进行细致拆分。我们可能需要关注每日新增�