• 项目
首页>>文章列表 >>时尚娱乐
文章列表

那些美到醉人的酒庄(七)

我们如何教人类婴儿学习,也如何教AI

深度学习的一个主要组成部分是数据——用于训练神经网络的图像、视频、电子邮件、驾驶模式、话语、对象等等。


令人惊讶的是,尽管我们的世界几乎被数据淹没——目前每天产生约2.5万亿字节的数据,但大部分是没有标记或非结构化的,这意味着对当前大部分监督学习形式来说,这些数据是不可用的。深度学习尤其依赖良好、结构化、且有标记的数据。


本文中,我们将讨论为什么高质量、有标记的数据如此重要,从哪里得到这些数据,如何使用它们,以及在短期内机器学习可以期待什么样的解决方案。


监督学习,无监督学习 & 数据


数据被馈送给神经网络,这些网络能够快速对数据进行分析,甚至提纯。这个过程被称为监督学习,因为提供给机器的大量数据是已经提前精心标记过的。例如,为了训练一个能够识别苹果或橘子的图像的神经网络,需要喂给它已经分别标记为苹果或橘子的图像。通过找到所有被标记为苹果或橘子的图像的共同特征,机器能够理解数据,从而使用从这些数据中发现的模式去识别新的图像。它们得到的有标签图像越多,数据集越大、越多样化,它们的预测准确性就越高。也就是说,熟能生巧。


这种方法在教机器有关视觉的任务方面十分有效,例如如何从图像、视频、图形、手写字体等数据中识别出任何东西。现在机器在一些任务中达到甚至超越人类水平已经非常常见,尤其是在图像识别应用中。例如,Facebook的人脸识别系统准确率已经达到97%,而谷歌今年初发布一个用于在医学图像中发现恶性肿瘤的神经网络,其准确率比病理学家更高。


与监督学习相对的是无监督学习。无监督学习的想法是,让机器潜入数据的海洋中,自己去发现和体验,寻找模式和关联,并得出结论,这个过程不需要人的指导。


这种技术长期以来不被一部分人工智能科学家看好,但是,在2012年,谷歌展示了一个能从大量未标记图像中识别出猫,脸,以及其他物体的深度神经网络。这一技术非常令人印象深刻,并产生了一些非常有趣或者有用的结果,但到目前为止,在许多任务中无监督学习的准确率和有效性仍不及监督学习。


数据,数据,无处不在的数据

将机器与人类婴儿进行比较是有用的。我们知道,人类婴儿即使没有得到指导,他也会学习,但他学的不一定是我们希望他学的,他也不是以我们可以预测的方式学习。但实际上我们是通过指导来教婴儿学习的,我们需要将婴儿暴露在大量的物体和概念,以及无限的主题中。


我们需要教会婴儿有关方向、动物和植物、重力和其他物理性质、阅读和语言、食物的类型和元素,等等的知识——有关存在的一切概念。随着婴儿渐渐长大,所有这些概念都可以通过“指示——说明”的方式解释,以及通过回答孩子们无穷无尽的问题教给他们。


这是十分艰巨的任务,但大多数父母,以及小孩们周围的人每天都在这样做。神经网络也有如同人类婴儿的需求,但它的关注点通常较为狭窄,我们并不是真的与它交互,因此它要求的标签要更加精确。


当前,AI研究者和科学家们通过多种方式获取数据来训练他们的机器。第一种方式是自己去收集数据,创建一个巨大的有标签数据集。这是谷歌、亚马逊、百度、苹果、微软、Facebook等大公司的做法,他们的共同点是拥有大量的业务,能够产生惊人的数据量。


尝试在这里列举所有内容是不现实的,试想一下上传到这些公司的云存储空间的数以十亿计的带标签或标记的图像,以及所有文档,搜索查询(通过语音,文本,图像和光学字符识别),位置数据和地图,评级、喜好和共享内容,购物信息,发货地址,电话号码,地址簿,以及社会关系,等等。


传统的实体企业,以及任何规模庞大的公司,通常在机器学习方面拥有独特的优势,因为它们拥有大量特定类型的数据(这些数据可能有价值,可能没什么价值,不过大多是有价值的)。



获取数据的难题


如果你的公司不是拥有海量数据的财富100强公司,那么最好是使用共享数据。获取大量多样化的数据是AI研究的关键。幸运的是,现在公开分享的、可免费获取的有标签数据集已经涵盖了大部分类别。


根据你的需求,从人脸表情、肢体语言到公众人物面孔等等各种各样的数据集都可以得到。你能够找到数百万有关人群、森林或者宠物(各种各样的宠物)的图片,也能够筛选大量用户或购买者的评价。也有数据集包含垃圾邮件、各种语言的推文,博客文章,以及法律案例报告。


传感器越来越普遍,例如医学传感器,运动传感器,智能设备的陀螺仪,热传感器等,它们产生了各种新类型的数据。此外,有无数照片有关人们拍的食物,葡萄酒标签或标语路牌。换句话说,纯粹形式的数据一点也不缺乏。


那么问题哪里?


尽管数据无处不在,但在实践中,事实证明这些数据的集合并不全是有用的。它们要么是规模太小,要么是标注得不怎么好或者只有部分有标签,又或者它们只是不符合你的需求。例如,假如你希望教机器识别图像中的星巴克商标,可能你找到的图像数据集只有 “饮料”或“咖啡”的标签。缺乏正确的标签,这些数据基本上就毫无用处。再比如,律师事务所或成立较久的公司的数据库中可能拥有数以百万计的合同或其他文件,但这些数据没法用,因为它们可能是简单的未标记的PDF格式。


另一个挑战是确保所使用的训练集规模大,而且要多样化。为什么呢?我们可以通过一个简单的思考实验来探索训练数据的想法。想象一下,假如我们有一个小孩,我们给他取名 Ned,任务是让他识别单词卡片上的西班牙语单词。Ned需要做的只是回答“是的,这是西班牙语”或“不,这不是西班牙语”。


Ned从来没见过西班牙语,他被给到10张随机的单词卡,用来学习西班牙语单词长什么样。其中5张卡片写着西班牙语单词:niño,rojo,comer,uno和enfermos,另外5张卡片写着其他语言的单词:cat,猫,céu,yötaivas和भभ。Ned被告知,如果他能从一套新的卡片中挑出所有西班牙语单词的话,就能得到一大杯冰淇淋的奖励。经过一个小时的学习,现在是测试的时候了。


在第一次测试中,Ned被展示一张西班牙语单词卡片:azul。因为在之前的学习中,字母“a”只出现在非西班牙语卡片,因此Ned认为azul不是一个西班牙语单词。第二张卡片是葡萄牙语的“母亲”一词:mãe,Ned立刻喊道:“西班牙语!”又错了。这是由于他的训练卡片中只有一张卡片上的单词有波浪符号,而这个单词恰好是西班牙语的。第三张卡片上写着“volcano”,Ned注意到它以“o”结尾,于是自信满满地说“西班牙语!”第四张卡片上写着 “منزل”,它的形状跟训练时任何一类的卡片都不太一样,眼看冰淇淋是拿不到了,Ned都快哭出来了!这是Ned的推理技巧有问题,还是训练数据有问题?


一个问题是:数据集太小。Ned的所有精力都花在记忆10张卡片上。在训练深度神经网络这样的复杂模型时,使用的数据集过小可能导致过拟合,这是机器学习中的常见缺陷。


基本上,过拟合是训练样本具有大量可学习的参数带来的结果。模型可能记住了整个训练数据,而不是从数据中学习一般性的概念。


回到我们的识别“苹果”和“橘子”的网络。假如用少量的苹果图像作为训练数据去训练一个大型神经网络,很可能会导致网络学会了训练数据的具体细节——皮是红色的,茎是棕色弯曲的——这些特征只需要在训练数据中进行准确的区分。这些太细的特征可能对于描述训练时的苹果图像表现很好,但在测试时面对新的、从没见过的苹果,这些特征就可能是无关紧要的,甚至是不正确的。


另一个问题是,保持数据的多样性是一个重要的原则。如果Ned在训练时看到一个非西班牙语单词也是以“o”结尾,或者看到更多样化的西班牙语口音标记,那他的表现会更好一些。从统计学角度来看,你获得的各种独特的数据越是多,这些数据的特征就越多样化,范围越大。在训练识别“苹果”和“橘子”的网络的情况下,我们希望这个网络更广泛化,以便能够识别出所有苹果和橘子的图像,无论这些图像是否出现在训练集中。毕竟,不是所有苹果都是红色的,如果我们仅用红苹果的图像训练我们的网络(哪怕我们有大量的这样的图像),这个网络也有在测试时不能识别出青苹果的风险。因此,如果训练期间使用的数据类型有偏差,并且不能代表在测试时预期的数据,那么就可能出现问题。


在很多人工智能中开始出现偏见的问题。用于训练神经网络的数据集反映了收集这些数据的人或群体的偏见。例如,只用红苹果的图像训练识别苹果和橘子的网络,我们的网络就学习了“苹果只能是红色”的偏见。青苹果,黄苹果和焦糖苹果呢?在其他应用,例如人脸识别,数据偏见带来的影响会更显著。



如何获取良好标记的数据?要么招聘人手进行数据标记,但这样做成本高昂,要么世界上所有的公司都突然赞成开放他们的所有专有数据集,并且慷慨地让全世界的科学家免费使用。不然,解决训练数据缺乏的方法就只有不去依赖它了。没错,不是努力去制造尽可能多的训练数据,深度学习的未来可以是朝着无监督学习的方向努力。试想一下我们是如何教会婴儿有关世界的各种概念的。毕竟,虽然我们教给婴儿的知识有很多,但我们作为人类所学会的大多数重要的事情是通过经验获取的,尤其是——无监督的经验。

那些美到醉人的酒庄(六)

微信跨界搞时尚了,麦当劳也出了全新胶囊系列

1. Raf Simons的CALVIN KLEIN首作2017秋季大片公开

从Raf Simons出任 CALVIN KLEIN 创意总监开始就受到了时装界的万众瞩目,而其首个成衣系列终于于昨日发布了全新2017年秋季CALVIN KLEIN 205W39NYC形象广告。此次广告片由资深摄影师Willy Vanderperre操刀,22位模特共同演绎,延续了上季以American Classics为主题的户外风格,在公路上以戏剧、浪漫的角度来解析美国,新系列添加了军乐队制服的元素,还包括了全新纳入CALVIN KLEIN 205W39NYC旗下的设计师丹宁系列CALVIN KLEIN JEANS ESTABLISHED 1978,融入仿古手工拼布,工装以及美国西部服饰等等精彩细节,令人期待。 

2. 微信跨界搞时尚,与Gap推出联名设计

据每日时尚要闻独家消息,微信首次跨界时尚服饰,与全球最大快是砂锅品牌之一的Gap共同推出了一系列的联名设计。联名款将微信品牌元素重新组合演绎,与Gap的设计风格融合,以跨界、真实、生活为主题,由此创造出众多风格各异的形式,力图打破虚拟的隔阂、让人们在微信找到属于自己的生活方式。此次联名系列将于7月28日正式发布,线上线下同步销售。据悉,7月28日至7月30日间还将于广州市天河区正佳广场中庭设置陈列展览,供用户现场体验。值得关注的是,Gap进入中国市场的时机不算太好,它需要作出更多的改变和尝试,比如新的营销策略,不过要想在中国市场突围,还得想更多的办法。 

3. 麦当劳时装系列将于明日正式发售

麦当劳于上周四发布了一个全新的胶囊系列McDelivery,包括连帽衫、运动衫和印有巨无霸Big Mac、炸薯条和三明治的枕套、野餐垫等。2015年,麦当劳创建了在线商店Big Mac Shop,专门销售印有Big Mac图案的雨衣、床上用品和壁纸等产品,此次是麦当劳首次推出时装类产品。据悉,McDelivery系列将于7月26日起在麦当劳指定的城市发售,消费者也可通过UberEats订购。 

4. Swatch推出平价腕表定制服务

瑞士手表品牌Swatch 7月起将在十余个国家和地区发布新产品Swatch X You,官方称,这是该品牌在第一次将设计权交给消费者。在专卖店和网上商城里,用户可以在预先准备好的款式中挑选若干配件——选择不同尺寸的表壳和表头、12点和6点位置的两条表带,最后确定与之搭配的表扣圈。官网显示,这项服务现在主要面向欧洲地区消费者开放,在网上商城完成设计后,用户还可以将自己的选择分享到社交网络。这种DIY表的售价在400元至800元之间。

5. Stella McCartney与人造蛛丝创业公司Bolt Threads合作研发环保面料

英国设计师品牌 Stella McCartney 近期宣布,与美国生物技术初创公司 Bolt Threads 达成合作,双方将致力于推进环保时尚创新,共同研发下一代尖端纺织品。Bolt Threads 使用在自然界中发现的蛋白质,开发更清洁,使用环保化学工艺和闭合生产的纤维。Bolt Threads 能人工重现昆虫和蜘蛛的产丝过程,并以此生产高性能的丝绸,比如,可机洗,或比传统丝绸使用寿命更长。Stella McCartney 和 Bolt Threads 合作的首款作品将是一件独一无二的金色连衣裙。这条连衣裙将在今年 10月 1日~2018年 1月 28日期间,在纽约现代艺术博物馆(Museum of Modern Art)举办的设计展“Items: Is Fashion Modern?”上展出。 


6. Milano XL将在米兰时装周期间举办,展示意大利手工制造的精髓

2017年 9月 16日至 26日期间,Altagamma意大利奢侈品贸易协会和Confindustria意大利时装工业家联合会将联合意大利时尚行业的其他组织开办首届 Milano XL 展,一同在米兰全城地标搭建设置 7个以 Made in Italy 意大利制造为主题的大型创意手工艺装置。此次 Milano XL 展投资额近 330万欧元,将史无前例地、大规模地展示意大利制造的精髓,与米兰市民分享工艺创新与艺术之美的享受。

游泳裤要怎么挑?

以为穿以前的泳裤就好?以为反正在泳池每个人都在游泳,没什么人管你的泳裤好不好看?那你就犯下大错了,在海边、泳池边,上身没穿衣服,每人都没有搭配可言,一条泳裤就是分出胜负的关键。你可以按以下四点检查一下你目前拥有的泳裤是否及格,否则你可能要考虑买一条新的了。

短到哪? 过膝盖还是膝盖以上?

泳裤长短的取舍也讲中庸之道,过长或过短都不适合。以中国人平均身高170-172公分举例,泳裤的底部应该在膝盖以上十七公分左右,大概就是膝盖和臀部的中间位置再往上移一些,别小看这一点点的距离,小小的往上移能够在视觉上把腿拉长,让身体的比例更好看。当然计算长度外也需要控制好裁剪,过阔的版形会影响你的比例。

面料有没有分别?

通常面料有nylon 和 polyster (有些是polyster混其它,如lycra等有弹性的面料)。Nylon的特质比较轻和贴身,但使用期较短(其实说短也起码有几年,除非你天天在海边过日子,天天都穿着泳裤);Polyster则容易保持原有版形,可以用洗衣机处理,还可以抵抗泳池常用的氯带来的化学刺激。

能穿滑浪短裤当作游泳裤吗?

我当然不能阻止你穿滑浪短裤去游泳,好比我不能阻止你穿内裤去游泳一样(但救生员应该会阻止你)。当我们要求讲究的时候,为什么不能穿上正式的游泳裤呢?正式的游泳裤比滑浪裤短,滑浪裤设计上更高腰。另外你也可以选择三角游泳裤或者平脚的贴身游泳短裤,如果你并不是去参加游泳比赛的话,可惜我们是不会推荐这些款式的。还有,有人常常在度假时为图方便穿着游泳裤去健身房运动,然后再跑去游泳。我们是强烈不建议的。当我们试图专业点把滑浪短裤跟游泳裤区分开时,怎可能搅混运动裤跟游泳裤?除非你想在游泳时顺道洗洗澡。


选花纹还是选纯色?

这个是没有绝对答案的,主要是看你上身穿什么。没错,之前是说过上身不会穿衣服,但你出水后,离开海边时也得穿上衣服吧。正确来说是好的游泳裤也可以穿在街上,例如在海边的餐厅用餐。我们的建议是,先从选择纯颜色开始,可以选择一些平实点的,如海蓝、墨绿等容易驾驭的颜色,之后可以试试花图案和彩一点的款式。选择款式其实跟地域也没有特别关系,但如果你是出去公干,要避免把你的西装、衬衣弄湿,就买一些有小袋子附送的品牌吧,它们可以把湿透的泳裤好好保存。

Apple在华推出首支Siri广告动作片“巨石强森与Siri的一天”

据第三方 Verto Analytics 报告指出, Siri 是目前美国最受欢迎的虚拟助手, 自2011年在 iPhone 4s 机型上开创性地配置Siri语音控制功能,并相继在2012年宣布支持中文语音识别和互动开始,掀起用户对于使用语音助手的习惯,经过多年的进化, 现为了让用户更进一步来了解Siri在生活中方方面面的使用情境, 首次在中国同步推出的广告动作大片 「巨石强森与Siri的一天」。

影片连结与嵌入网页供您参考

官方网页: https://www.apple.com/cn/ios/siri/#film-siri

微博连结: http://apple.youku.com/play/XMjkxNTY5MDUyNA==/

嵌入网页:

Siri的完整介绍与技巧及窍门:

若是你觉得读网页很麻烦, 那快点拿起 iPhone 呼出Siri 对它说 「你能帮我做些什么?」

https://www.apple.com/cn/ios/siri/

影片内容与剧中Siri的功能简介:

在 Apple 最新的广告动作大片“The Rock x Siri Dominate the Day”中,绰号“巨石强森”的演员道恩·强森 (Dwayne Johnson) 上演了如何用 Siri 这款备受欢迎的私人助理,应对繁忙日程中更为复杂的事物,比如审视生活目标,环游世界去寻求自己的兴趣,以及在外太空拍摄自拍照。

就像担当“巨石强森”的得力助手一样,Siri 也能帮助你迎接一整天的挑战,无论你身在何处,正在做什么。从接打电话这些简单的事务,到创建基于位置的提醒事项或重新规划日程表等更为复杂的事务,Siri 都能毫不费力地帮你完成。

通话。Siri 是拨打电话的绝佳方式,通话是 Siri 在 iOS 上最常见的应用。Siri 对你的通讯录了如指掌,还了解你的人际关系和联系人昵称,此外还能帮你查找商铺并拨打商家电话。

信息。无论你正在外出还是开车,Siri 都是帮你发送信息或朗读新信息的理想方式。信息是 Siri 在 iOS 上仅次于通话的常见应用,也是 Apple Watch 上最常见的应用。

提醒事项与提醒。Siri 可以创建提醒事项和列表,帮你掌控所有待办事项,还能让你轻松设置闹钟或定时器。

日历。Siri 可以让你轻松管理日历。

导航。Siri 擅长带你前往你的目的地,帮你找到附近的商铺和地点并与它们互动。你可以查看商铺营业时间、浏览商铺网站、查看评价和照片、获取行车路线,以及拨打商家电话等。

照片和自拍。Siri 可以在“照片” app 中找到你最喜爱的照片,还可以按指令打开相机,让你拍摄自拍照。”找一下北京拍的照片”

外出。晚上外出时,Siri 能帮你找到餐厅、获取行车路线或预约用车、平摊费用、计算小费并通过不同的支付方式与好友结算。

音乐。可以随心所欲的让Siri开始和停止播放音乐与控制音量。

管理家居生活。搭配 HomeKit,Siri 可帮助你掌控从恒温器、灯光到安全系统的各种家居用品。例如,你可以使用“场景”,在下班时告诉 Siri 设置“到家”场景,这样,你的居室就会变得明亮温暖,等候你回家。

锻炼与运动:有了 Siri,你就可以在 iPhone 和 Apple Watch 上操控各种体能训练 app。例如,你可以告诉 Siri 开始跑步或另一项运动,比如骑行或有氧运动。


设置与系统偏好设置。Siri 可以按指令管理你的设备,比如打开 WIFI、开启定位设置等。

启动 App。只需一声请求,Siri 就能打开任何所需的 app,无论你想要使用微信给好友发信息,在 滴滴上预约用车,还是发微博,Siri 都能帮你完成。(试试看说: 我要玩王者荣耀)

获得紧急救助。可以说,Siri 是个救生员。它能在紧急情况下提供支援,帮你拨打 911,找到最近的医院,推荐合适的救援热线或提供本地服务建议。只要说声“嘿 Siri”,用户无需触控 iPhone 就能获得这些服务。

那些美到醉人的酒庄(五)