2017年7月5日,北京,阿里人工智能实验室夏季新品发布会在鼓楼新落成的时间博物馆举办。
上午,百度在国家会议中心宣布了以陆奇为总设计师的AI新战略。自动驾驶平台Apollo和语音交互平台Duer OS 全面走向开源。下午两点,在北京地铁8号线的另一端,阿里巴巴也带来了最新的AI战略和产品发布。
百度CEO李彦宏上午在演讲中提到,此前在天津的一场人工智能大会上,马云曾告诉他不要盯着竞争对手。他说:“百度的竞争对手不会为技术去付费,他们会为产品付费,为流量付费。百度愿意为技术付费。”
此前,外界一致猜测,在这场名为“未来,开口即来”的新品发布会上,阿里将发布自己的智能音箱。新智元此前也对此进行过报道,指出:该设备将能让中国的消费者使用语音控制的虚拟助理直接从阿里巴巴的购物网站上购买产品,正如美国的消费者可以使用 Echo 上的 Alexa 虚拟助理直接在亚马逊上订购商品一样。阿里巴巴的虚拟助理由该公司在中国的人工智能实验室开发。这一产品以中文为主,其目标用户是国内熟悉阿里巴巴线上服务的消费者。这也意味着,该产品不会在美国发布。
就在刚刚,答案揭晓。
阿里巴巴刚刚发布了智能音箱天猫精灵 X1,售价499元。比 Echo 和 Homepod 都要小巧。减少进入家庭环境的“入侵感”,给人“若有若无”之感。
天猫精灵X1采用了圆柱形的设计,有黑白两种配色,高126mm, 直径83毫米。
在X1顶部中央,配有一枚静音键。当用户触发此键时,X1会立刻停止声音播放,并停止识音功能,以有效保证用户隐私。
X1底部设计了一圈隐藏指示灯,会通过声音来判断用户方位,亮起灯光以示提醒,灯光还会根据不同使用功能和场景配合进行提示。
在配置方面,X1 采用了业内首颗 SmartAudio专业处理芯片,相比此前市面上的主流芯片,处理效率提升25%,功耗降低32%。
X1搭载了 6 麦克风环形阵列,能够在家庭环境下实现5米范围语音识别。并经过专业音效调节的独立功放芯片,使得X1同时也具有优秀的外放效果。
天猫精灵X1和AliGenie均由阿里巴巴的科学家和工程师团队研发,应用了阿里巴巴积累多年的语音识别、自然语言处理、人机交互等技术。其中,阿里人工智能实验室正在对声纹识别、声纹购、NLP中文对话引擎等核心技术申请专利。不久前,阿里的NLP技术团队还在国际权威技术论坛KDD 2017 上发表了一篇论文。
美国国家标准署2016年举办的全球说话人识别竞赛(NIST SRE2016),阿里巴巴以OpenSesame(芝麻开门)为队名,采用了基于深度学习网络的特征提取,借助距离测度学习来提高数据的泛化能力,开创性提出利用对称性支持向量机器来提高系统性能,在近两百多支参赛队伍中,阿里最后的系统性能在大中华区声纹识别性能排第一,美国赛区第二。同时阿里递交了4个相关的专利,这一系统曾受邀在声纹识别顶级(NIST SRE2016 workshop)作公开演讲。
在语音顶级国际会议 Interspeech 2017, 阿里的两篇论文也被接受:《The Opensesame NIST 2016 Speaker Recognition Evaluation System》《The I4U Mega Fusion and Collaboration for NIST Speaker Recognition Evaluation 2016》。
这一声纹识别技术也被运用到了 X1上,它会根据声音条件识别出不同的使用者,以此保证使用的安全性和私密性。而在记住了每个人之后,X1还能够实现“千人千面”,能够根据每个人的喜欢进行内容设定和推荐。
基于声纹识别技术,阿里还推出了声纹购功能,是第一个商用的声纹购物系统,可以通过声纹完成支付,当你发起购物、充值等行为时,只需要说出声纹密码,声音识别系统将对身份进行校检,确认是本人后才会完成交易,否则将拒绝请求。
产品支持多轮对话。阿里巴巴人工智能实验室在自然语言理解的基础上,加入了“决策引擎”机制,能够理解语音的上下文语境,并判断当前应该响应的是哪一个模块,进行决策。这一套先进的人机交互和自然语言处理系统也在国际顶级学术论坛KDD 2017上发表了重要的论文,并正在申请技术专利。
X1的语义理解用的是阿里人工智能实验室自己的技术。中文语音交互的难点在于中文的语义理解。阿里人工智能实验室研发的中文语义理解引擎针对常用的定时,提醒,天气,娱乐内容,家居控制,助手,以及购物等领域进行了特别优化,仅天气预报就能够理解786种中文问法。
通过深度机器学习,天猫精灵X1已兼容20个领域的自然语义理解。
此外也更多考虑到中文语言对话过程中的各种实际案例,对北方语言的儿化音,干净利素的问法,小朋友经常叠字叠词,南方人某些与普通话混淆的中文表达方法进行了深度处理。针对中国人语言发音的特色,对吞字,咬字,缺字,北京话习惯,河南话习惯进行了特别优化,进行补偿和修正。
这套语义理解系统还带有记忆功能和强大总结归纳能力,还加入了模拟的“长期记忆”和“短期记忆”功能,能够针对不同的场景和时间度,让语义理解系统更加贴近用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。
AliGenie开发者平台有以下核心技术开放:
1、深度学习
阿里研发了国际领先的深度学习技术来作为AliGenie的大脑,这些技术成果被发表在顶尖国际会议例如KDD和CVPR上。阿里自主研发的深度学习能快速高效的从海量数据中进行学习,并能在广泛的应用场景中使用。
2、自然语言处理
基于积累的海量的自然语言数据,和自主研发的国际领先的深度学习技术,阿里实现了高效准确稳定的自然语言理解。
3、搜索/推荐算法
通过阿里积累的用户画像,为用户个性化地提供用户所需要的信息和内容服务。
4、知识表示及推理问答系统
阿里构建了一个海量的知识库,实现对万事万物的结构化的描述,这个知识库不仅帮助阿里更好的理解语言,更重要的是可以通过推理回答各种知识类问题。
上述能力阿里将免费开放给开发者和硬件厂商,无需从头搭建AI语音系统,节省在研发上的巨量投入,使开发者能够更好的为用户提供服务。
硬件设备厂商可以通过两种方式接入AliGenie:
1.通过SDK接入
提供常用平台(如嵌入式Linux、Android)的SDK给到设备厂商,SDK中包含了如长连接通讯、设备用户绑定、音频播控、状态管理等功能模块,封装其中的实现细节,开发者可以方便的进行接入。
2.通过协议接入
提供基于Websocket的一套标准化协议,由厂商自行进行对接,直接调用AliGenie的各项能力。
Q:开发者如何分成?
A:开发者可以获得全部收益,平台在推广期间不参与分成。阿里还会推出相关的阿里AI创新开发者计划。
AliGenie目前所涵盖的功能包括:
1. 音乐音频:海量曲库和内容库
2. 家居控制:语音控制智能家电设备
3. 购物充值:声纹实现购物全流程
4. 儿童教育:精选儿童音频内容,寓教于乐
5. 技能市场:汇聚各种服务和内容,不断扩展功能
目前已经或正在拓展的行业解决方案有:1、儿童领域2、酒店领域3、家庭场景下4、TO B其他商业场景5、线下零售场景6、与其他显示设备结合的场景
阿里人工智能实验室(A.I. Labs)成立于2016年,负责阿里巴巴集团旗下消费级AI产品的研发。A.I. Labs的使命是探索人机交互新大陆,带领人们体验探索未知世界的乐趣。
阿里人工智能实验室的首席科学家是王刚。据阿里内部人士透露,前新加坡南洋理工大学终身教授王刚已经加入阿里人工智能实验室,担任杰出科学家,负责机器学习、计算机视觉和自然语言理解的研发工作。资料显示,王刚在新加坡期间,他的研究团队开发的自动服装检索系统、辅助驾驶系统、以及智能安保监控系统都被成功转让给了相关公司进行商业化。王刚2005年本科毕业于哈尔滨工业大学,2010年在伊利诺伊大学香槟分校获博士学位。
据21世纪经济报道的信息显示,阿里人工智能实验室的负责人花名“浅雪”,原名
陈丽娟。根据此前公开的信息,她曾经担任淘宝首任产品经理,一淘网运营总监,阿里智能云总监等职务。据内部人士透露,浅雪曾一手建立了阿里智能生活事业部。
不过,阿里智能和人工智能实验室还是有一定区别。2015年8月,阿里智能曾与飞利浦推出过智能无线音箱“小飞”,但它并不是自主研发品牌,与这次即将发布的产品不是同一个概念。
发布会结束,新智元对浅雪进行了采访。采访内容我们会在后续报道中公开。据阿里工作人员介绍,马云觉得天猫精灵特别有03年淘宝的味道。