• 项目
首页>>文章列表
文章列表

争相“插刀”小札 苹果库克呼吁对数据安全更多监管

3月24-26日间在北京举行的中国发展高层论坛2018年会上,论坛外方主席、苹果CEO蒂姆·库克呼吁加大隐私监管力度,保障数据安全阻止滥用盗用。库克这番话的时间点非常微妙:另一大美国科技巨头Facebook,目前正深陷“泄露门”泥潭。


3月22日Facebook创始人暨CEO扎克伯格打破沉默,在自己的主页上公开向全平台用户“认错”,称“我们犯下过错误,必须担起责任,做好我们该做的”,并表示将彻查所有在2014年平台更新隐私权限前曾访问大量用户信息的应用程序。


上周五(3月23日),美国国会正式要求扎克伯格到众议院能源和商业委员会出席听证,解释数据泄露事件的始末,以及Facebook为保护用户数据和隐私所采取的措施。


然而不论是公开表态还是国会听证,似乎都不能阻止对这个世界第一大社交网络信任的衰退,“#删除Facebook”话题标签在各大网站喧嚣直上,就连科技行业的其他大佬也加入了“落井下石”的行列。


国会正式对扎克伯格发出听证要求当日,“钢铁侠”马斯克被问及会不会删除商用航天公司SpaceX的Facebook官方页面时表示,“我还没意识到SpaceX还有个主页,绝对会删的。”当天晚间,不仅SpaceX官方页面,就连特斯拉的官网也从Facebook平台上撤下,可谓是“雷厉风行”。


而此时库克在中发高论坛上的讲话,更多了一层“痛打落水狗”的含义。自“泄露门”丑闻爆发以来,Facebook股价已累计跌去近14%,市值蒸发逾746亿美元。



库克:用户隐私数据不应该在不知情的前提下被整合利用


库克在论坛上呼吁,急需“精心制定”的监管规定,防止隐私信息在用户不知情的情况下被加以整合与应用至新的场景。


在被问及是否应该根据Facebook事件限制用户数据的使用时,库克表示,


我认为这次事件非常可怕,并且目前蔓延规模如此之大,也许是时候出台一些精心制定的监管规定了。


任何人都能够知道你多年来浏览过的内容,你都有哪些联系人,他们的联系人又是谁,你喜欢的不喜欢的事情,以及你生活中的每一个亲密细节,这样的能力在我看来根本不应该存在。

库克表示,苹果公司长期以来一直担心,世界各地的人们在完全不知情的情况下泄露了自己的信息,并被挪作他用,


围绕他们的这些数据可以塑造出非常精密的用户画像,而这些画像则在他们不知情的前提下被肆意使用。


总有一天会某些事情败露之后,人们才发现自己居然被做了这样冒犯个人权利的事情,平日根本无法想象。


而这样的事情,已经发生了不止一次了。

从中国制造到中国智造 创新驱动打造经济新引擎

关于从中国“制造”到中国“智造”,多位两会代表委员表示,人工智能将成为中国“智造”的新引擎。智能装备制造的发展要坚持走自主创新和开放合作相结合的道路,同时应进一步加大政策扶持力度。


加大政策扶持力度

全国政协委员、中央纪委驻中央统战部纪检组组长苏波认为,我国已具备建设制造强国的实力和条件。

近年来我国科技成果出现“井喷式”增长,一些关键领域技术水平明显提升,航天装备、量子卫星、载人深潜装备、高速轨道交通装备、核电机组、特高压输变电装备、海工装备等一批重大技术装备已达国际领先水平。

全国政协委员、广东证监局党委书记、局长陈小澎建议,加强创新驱动,培育制造业发展新动能,特别是推动国家技术创新示范企业以及技术中心建设;优化产业布局,推动重点产业积极发展;切实降低成本,营造制造业良好发展环境。给予地方政府一定的产业政策自主权力,让它们能精准支持当地有潜能制造业的发展。

苏波建议,充分发挥企业在制造强国建设中的主体作用。坚持“市场主导、政府引导”原则,支持优势企业参与制造强国建设的重大工程和重点任务,落实支持政策,鼓励企业创新,为企业投身制造强国建设创造良好的市场环境。

民建中央的提案《加快从中国“制造”向中国“智造”的转变》建议,进一步加大政策扶持力度,对制造业智能化更新改造投资予以支持,包括鼓励企业投入研发支出,落实好研发费用加计扣除政策,修订完善节能环保专用设备税收优惠目录等,从而有效降低实体经济企业成本。

厚植创新基因

全国人大代表、格力电器董事长董明珠认为,智能装备制造的发展要坚持走自主创造的道路。当前中国制造业的转型升级存在两条路径,一是融合外部技术的快速并购路线,二是自主研发以实现转型升级的稳健路线。以格力为例,从空调到智能装备,无不是自主研发和生产,通过应用智能生产设备,逐步实现生产线无人化。

“中国制造企业的整体跃升首先要过的不是技术门槛和资金门槛,而是创新门槛。只有把核心技术掌握在自己手中,才能真正掌握竞争和发展的主动权。”董明珠说。

苏波认为,要坚持自主发展与开放合作相结合。必须立足自主发展,支持企业持续创新,实现高端装备和核心技术的突破和产业化。同时,积极推动开放式创新、协作式创新,充分运用已经建立的《中国制造2025》与德国工业4.0高层对话机制,支持国内外企业、研究机构和行业组织在智能制造、工业互联网等重点领域开展务实合作。

董明珠建议,有关部门大力支持国内智能装备自主技术创新:一是制定、区分补贴政策,重点扶持自主研发技术与关键零部件的企业,降低对引进产品和技术的企业的支持;二是对纳税总额大的智能装备企业给予适当的退税支持,专项用于智能装备的自主研发。

民建中央建议,全面引导制造产业链纵深化发展。加强具有知识产权的核心技术开发及提升制造工艺水平和服务水平,从专注于制造的价值链中间环节向技术研发、产品设计、技术和产品标准制定、产品精深加工、销售渠道构建、品牌培育及售后服务等价值链的两端延伸,以实现价值链条延长和品质提升,进而调动价值链上各环节行为主体的积极性。

发展人工智能

多位代表委员认为,人工智能技术作为新一轮产业变革的核心驱动力,将成为中国“智造”的新引擎。

全国人大代表、联想集团董事长兼CEO杨元庆建议,推进实施“智能+”,壮大经济发展新动能。

杨元庆认为,应在国家重点研发计划中进一步设立“行业智能”专项,重点支持物联网、物联网新设备、5G、高性能计算、大数据、深度学习、系统解决方案等关键领域;选择智能制造、智慧医疗、智能交通、智慧社区等垂直行业,率先建设一批“智能+”示范项目;建立国家“行业智能”应用服务平台,支持中小企业智能化改造。

杨元庆以联想推进智能制造为例指出,制造业智能化将不仅局限于制造环节,还包括产品的开发、供应、生产制造、营销和服务等环节。“比如过去开发产品时,要找用户谈对产品的印象,再进行改进。现在互联网上的数据成千上万,所有用户的反馈意见都可以通过大数据的应用进行分析,研发就更加智能。”

全国政协委员、百度公司董事长兼CEO李彦宏建议,鼓励企业开放人工智能平台,促进实体经济转型发展。人工智能平台成为人工智能与实体经济融合创新的重要基础设施,也是实体经济转型发展的必然选择。

李彦宏建议,国家出台更大力度的项目、资金、税收等政策支持措施,鼓励企业开放人工智能平台,加速构建智能时代的国家创新基础设施,呼吁和鼓励更多企业开放人工智能技术。同时,积极培育一批市场竞争力强、影响力大的国家级人工智能开放平台。

中国联通研究院院长张云勇建议,打造工业互联网发展的新格局,构建以中央企业为主力军的数字驱动型工业新生态。加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,聚焦发展智能、绿色的现代制造业,助力传统产业转型升级。


推特CEO:十年内比特币将成全球“单一货币”

周三,推特CEO Jack Dorsey表示,比特币将成为全球“单一货币”。


Dorsey认为,


“世界终将拥有单一货币,互联网也将拥有单一货币,我个人认为它将是比特币。”

Dorsey预计比特币代替美元在全球金融领域的主导地位,只需要十年甚至更短的时间。


除了担任推特CEO外,Dorsey还是移动支付公司Square的CEO。


Dorsey表示,像Square这样的支付处理公司需要帮助比特币能被更广泛的接受。但他也承认比特币现在不具备成为有效货币的能力,


“比特币目前发展得还很慢,价格也高,但随着越来越多的人拥有它,这些障碍都将不复存在。行业会有基于区块链的更新技术出现,让比特币更容易被人们接受。”

据CoinDesk报道,Square曾在去年十一月发布的测试版中,允许有权限的用户在其支付软件Cash App上购买和出售比特币。


几年前,比特币还无人问津。而现在,它已经成为全球最令人瞩目的数字货币之一。从去年3月初的1200美元一路暴涨至12月15日的19843美元,整整涨了十五倍。


但在今年1月底,Facebook禁止类似金融产品的广告。谷歌也在3月14日宣布从今年6月起禁止网络推广数字货币、ICO以及其他投机性金融工具。同时,美国证监会(SEC)开始对数字货币对冲基金发起问询,以调查他们是否有不当行为。


推特也准备对一系列数字货币广告动刀,将在全球范围内禁止与ICO、代币销售和数字货币钱包相关的广告。


在全球掀起的一系列针对数字货币的监管措施后,年内迄今,比特币价格累计跌幅达40%。


尽管如此,市场仍有不少好看比特币的声音,除推特CEO Dorsey预计比特币十年内将成为全球“单一货币”外,PayPal创始人Peter Thiel也在接受采访时称一直看多比特币。


Theil表示,他对比特币长期前景持乐观态度,他相信比特币可以像黄金一样作为一种价值储存手段,成为对冲通胀的工具。


日本央行行长黑田东彦周一在阿根廷G20峰会上力挺比特币,他表示加密数字货币可以成为金融系统的优势。对于数字货币来说,消费者保护必须得到考虑。数字货币需要一些监管,比如反洗钱,但是同时也需要避免阻碍创新。


近日,比特币价格相对稳定,过去24小时小幅下跌0.5%。

瑞信声称区块链到2025年才能真正成熟

随着区块链的火速蹿红,几乎每个人都想从中分一杯羹。


不过瑞信在近日的报告中指出:区块链真正成熟的时间要等到2025年。


在这份有关数字货币和区块链的重磅报告中,瑞信将区块链技术的发展分成了七个阶段,包括“理念形成”、“概念验证”、“原型”、“试验”、“生产并行”和“生产”。


其中,第七阶段“生产”之后的2025年才是主流社会采用区块链的时间点。


此前,腾讯在其区块链方案白皮书中引用达沃斯论坛创始人克劳斯·施瓦布的观点,区块链是第四次工业革命的重要成果,预计到2025年之前全球GDP总量的10%将利用区块链技术储存。


然而,现在距离区块链真正成熟还为时尚早。按照划分,目前我们仍正处于区块链技术发展的“半山腰”上,即从第三阶段“原型”到第四阶段“试验”的过渡期。


不过,瑞信同时也指出,2018年会是区块链技术发展的关键一年。一些行业的区块链解决方案将投入生产,尤其是支付和贸易金融领域。

过去一年,区块链技术经历了从不为人知到街知巷闻的巨大变化。一些领域,如金融服务就率先拥抱了区块链技术。


去年12月,瑞银、瑞信、巴克莱等宣布测试基于以太坊的数据质量控制项目,用来帮助机构为今年1月3日正式施行的欧洲金融改革MiFID II做好准备。这意味银行将依靠区块链来审查和反馈数据的准确性,而不是第三方机构。


除了金融机构,“蓝色巨人”IBM也决心利用金融业拥抱区块链技术的机会“咸鱼翻身”。


去年6月,IBM成功竞标DTC(七大欧洲银行合建的区块链贸易融资系统)。瑞银指出,随着传统业务的衰落,区块链技术对于IBM而言就是救命稻草,区块链在货币之外的应用将是IBM继续发展的关键。


当然,区块链技术的应用范围并不应只局限于金融行业,而是有更加广阔的发展空间。瑞信认为:


在一些可能有更多空间来试验真实应用的领域,比如消费品和制造业,我们已经看到有企业在2017年开始部署区块链的解决方案了。


比如美国老牌摄影器材制造商柯达就在1月9如宣布,推出区块链技术支持的照片所有权管理平台KodakOne,同时将发行数字货币“柯达币”。

中国最难考大学TOP 10 的榜单!

三流的父母做保姆,二流的父母做教练,一流的父母什么样?

姑且不讨论这句话的对与错,无论是怎样的父母,“榜样”也好、“教练”也好,“保姆”也罢,都有一个共同问题要面对,就是如何处理自己的情绪问题。


对父亲来说,父亲拿什么去教育孩子,就是用自己的风度。父亲必须在孩子面前表现出来的一种质量,在什么时候表现风度,尤其要在遇到逆境,遇到自己接受不了的人,遇到别人犯错误的时候,父亲如何表现风度,这是带给孩子内心的一种力量,也是带给孩子的一个空间。母亲的情绪对于孩子来说意义更为重要。妈妈的性格与脾气,会直接影响孩子的心理发育。妈妈性格温和,孩子性情也趋于平和,内心世界稳定;妈妈如果性格暴躁、喜怒无常,孩子也心浮气躁,遇事情绪化,做事容易诸多不成。所以,控制情绪是做现代妈妈需要学习的重要一课。



妈妈要学的第一个字是“虚”



很多妈妈很精明,一眼就能看出孩子的问题,而且忍不住很快就要指出来,这不是母亲的内涵。在看到自己孩子优缺点的时候,做母亲的都不要立即就反应出来。为什么不要动,因为孩子需要空间去自己成长,母亲随意而过多的评价,往往使孩子丧失内在的动力,而更多在意母亲的反应。有的家长很纳闷,孩子在别人面前都很好,一回到家,一看到自己的妈妈就变了另一个人似的,变得急躁又不可理解。为什么这样,可能就是这个“虚”没做好。做不到不露声色、不能够虚下来的母亲,无法给孩子的情绪提供一个空间。孩子的情绪得不到母亲情绪的包容,要么变得谨小慎微,要么对抗性强,亲子关系难以顺畅。



妈妈要学的第二个字是:“弱”



母亲在孩子面前要学会示“弱”。强势妈妈的孩子很难自信,孩子的自信会在妈妈一直强势的状态里一点点削弱。能够在孩子面前示弱的母亲,实际上是通过示弱实现对孩子的托举,孩子的内心会因此逐渐自信而坚强。所以,如果希望自己的孩子自信,就要学会在孩子面前示弱。凡是对孩子一直强势的父母,实际上是在压制孩子的成长和发展。



妈妈要学的第三个字是:“柔”



在孩子的成长过程中,一个母亲真正的教育力量在于“柔和”。你会发现,越柔和的母亲,有时候带动孩子的能力越强,越是扯着嗓门整天对孩子叫嚷的母亲,则往往难以胜任真正引导和带动孩子的重担。



每位家长都重视孩子的学习,但是,家长的心态应该放在哪?请千万不要急着报班、着急找家教、着急找一些方法层面的东西来解决孩子的学习问题。



家庭教育重在养,而非在教。我们需要特别解读以下两个字:一是心,二是情。教育需要有情有礼,这是家长们在教育孩子时必须遵守的原则。教无定法,对待不同家庭的孩子以及孩子的不同成长阶段,需要的方法肯定是不同的。但是有一个共同的原则需要注意,那就是要有情有礼,情在礼的前面。



现在家庭教育的现状是什么呢,有情无礼。家长爱孩子的时候爱得没边,关心孩子的时候,连孩子的袜子都要给他穿、给他洗(已经足够大的孩子)。这叫爱吗?这个情已经失去了教育的价值。



另一个现状是有礼无情,尤其是家长给孩子讲道理的时候,没有感情铺垫。任何层面的教育,首先是要给被教育者传达教育者本身的真实的内在情感。感情做足了,等到孩子渴望我们讲一些东西的时候,家长再把道理点出来。一定是情感交流到一定程度的时候,孩子才会主动说:“妈妈,那我该怎么呢?”这个时候一个小道理过去,才有可能实现带给孩子的一种引导能力。



“家长内心焦虑与浮躁,比孩子有学习问题更可怕”



孩子出现学习问题并不可怕,可怕的是导致孩子内心不安的干扰源。也就是说,孩子内在基础层面的支撑乱了,才是最可怕的事。家长必须拥有情绪自控的能力,孩子出现问题时,你先不要急躁,先平静下来,把自己的情绪调整好,然后再面对问题。



如何实现情绪的自我调控和管理,这是对家长提出的一个深层次的问题。“只有平静的内心,才有可能沉淀和吸收教育的理性思考”。只有我们家长的内心平静下来,才能把教育者对教育的理性思考沉淀到内心里面,沉淀为自己的一种状态。如果没有这一种过程,无法把它内化为自己的一种状态,你读任何教育理念都是无效的。因为不能内化和沉淀,你就无法拥有实施教育的资本,无法拿着教育专家的东西在自己家庭里去实现。



“家庭教育的空间一定要留给孩子”



家庭教育要想做好,应该下功夫做的事在两头,一头是父亲,一头是母亲,中间这一段,任何孩子的成长都是在蜿蜒曲折的过程中完成的,这个空间要留给孩子,不要管它。



一流的家长靠放,不懂教育的家长靠管,管孩子是百分之百的失败,放孩子有百分之五十的成功。天天抓着孩子不放的家庭跳到错误的空间里来了,这个空间是每个孩子自己独立完成的,但是很多家长参与到这个空间里面盯着不放,拔不出来,不让他管不行,不让他管就没有别的事可管了。



有的家长说,你让我放就不管了吗?让你放不是不管,让你站到你的角色里面。要对孩子的情绪做养护,而不是对孩子的行为层面的东西过多地参与。过多的参与等于我们不知不觉、兢兢业业在犯错误。



“家长的教育能量释放出来,足以点燃孩子学习的热情”



当一个人对学习失去热情之后,再好的智商也谈不上很好的发挥。有的家长说孩子表现不好,不好好学习。事实上,“求人不如求己,求己不如求学”。中国文化最大的特点就是内视,《大学》里讲“正心、然后诚意”,正谁的心?正家长的心,然后再正孩子的心。



其实,气质决定了孩子的学习差异,孩子的气质就是父母的状态慢慢内化给他们的一种气质,就像我们的职业习惯一样。如果一个家长的内心永远是冷漠、浮躁的状态,任何教育思想在他的心理面落下去就像乒乓球一样弹回来了,孩子也一样。父母的情绪孕育着孩子学习的情绪与气质。



启动家庭教育的能量,首先要启动家长和孩子内心流通的天然情感。我们父母和孩子之间情绪和情感的力量,要达到“炽”的程度。炽就是热,热到能够烧烤孩子内心的程度。拿什么去塑造孩子的心灵,塑造孩子的气质,就是拿我们父母恰当的情。



今天很多孩子不是才能上的欠缺,而是情的不足,义的模糊。家长是孩子情和义最大的启蒙者,如果你们这一块的启蒙力量失去了,对孩子才能上的表现肯定是一个遗憾。



家庭教育是真情的回归和文化的守望与传承,家庭教育不能再站到方法和技术层面来折腾了,应该站到文化和哲学的空间去审视。



所有的父母都是文化的载体,不同的家庭文化培养出来的孩子的气质是不同的。文化是教育的旗帜,教育做到最高点就是文化,文而化之,不用说话孩子内心就被我们感化了,同时产生另外一种生命力。



家长自身对教育素质的修养和提升,仅仅是实现家庭教育功能的开始。孩子们内心的逻辑,和我们成人之间内心遵守的逻辑思维是不一样的、是有冲突的。但是他们的这种逻辑未必是不好的,需要我们去开发、面对、指导。我们要反问的是:我们的教育储备够不够,我们的家庭教育能量够不够,我们的教育修养够不够。



“养鱼重在养水,养树重在养根,养人重在养心”



在教育上,方法的力量是有限的,家长在教育孩子问题上真正欠缺的是什么呢,真正欠缺的不是方法,是状态,是父母的教育状态。现在有很多母亲的理性让我觉得比较可怕,在谈及孩子的时候,缺乏情感的基础,缺乏情感的支撑。母亲的这种理性在教育孩子问题上是很可怕的。父亲和教育是有距离的,有距离不可怕,但父亲要表明在家庭教育这个空间里的位置,要表达清楚在家里对孩子的精神导向是什么。



教育的最佳状态在于一个“养”字。家庭教育重在养,而不在教。现在孩子学习上的问题,各种各样的问题归纳起来就是心力的不足,心里面对学习热情不足。养鱼重在养水,养树重在养根,养人重在养心。



如果一个孩子的心在家里面得不到养护,得不到有效的滋养,天赋的聪明就没有基础;智商再高,没有恰当的、相应的心态支撑,天赋很难发挥。我们先不讲孩子的心如何,先看看养孩子心的人,也就是父母的心适不适合养孩子,或者如何达到养孩子的状态。



如何点燃孩子内心的学习热情,点燃需要一定的温度,需要一定的状态才能点燃。如果家长的心是冷漠、麻木或者是焦虑不安的,我们很难去点燃孩子学习的热情。面对孩子不管出现任何状态的时候,请记住,作为一名母亲,保证自己情绪的平和,这是您对孩子最伟大的教育!

金准人工智能 大数据挖掘分析和深度学习

前言

2017 年,AI技术汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过10000亿元。

金准人工智能专家预计,2018年的人工智能市场将突破200亿元。

目前,中国的人工智能研究正处在风口,行业巨头公司正逐渐完善自身在人工智能的产业链布局,不断涌现出的创业公司也持续在垂直领域深耕深挖。

在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作。通常而言,数据挖掘也称为Data Mining,或知识发现Knowledge Discovery from Data,泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。


一、数据挖掘

金准人工智能专家认为,数据挖掘的特性主要有以下四个方面:

1.应用性(A Combination of Theory and Application):数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践,数据是根本,数据挖掘应以数据为导向,其中涉及到算法的设计与开发都需考虑到实际应用的需求,对问题进行抽象和泛化,将好的算法应用于实际中,并在实际中得到检验。

2.工程性(An Engineering Process):数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。

3.集合性(A Collection of Functionalities):数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。

4.交叉性(An Interdisciplinary Field):数据挖掘是一门交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等诸多不同领域的研究成果和学术思想。同时一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。

综上所述,应用性是数据挖掘的一个重要特性,是其区别于其他学科的关键,同时,其应用特性与其他特性相辅相成,这些特性在一定程度上决定了数据挖掘的研究与发展,同时,也为如何学习和掌握数据挖掘提出了指导性意见。如从研究发展来看,实际应用的需求是数据挖掘领域很多方法提出和发展的根源。从最开始的顾客交易数据分析(market basket analysis)、多媒体数据挖掘(multimedia data mining)、隐私保护数据挖掘(privacy-preserving data mining)到文本数据挖掘(text mining)和Web挖掘(Web mining),再到社交媒体挖掘(social media mining)都是由应用推动的。工程性和集合性决定了数据挖掘研究内容和方向的广泛性。其中,工程性使得整个研究过程里的不同步骤都属于数据挖掘的研究范畴。而集合性使得数据挖掘有多种不同的功能,而如何将多种功能联系和结合起来,从一定程度上影响了数据挖掘研究方法的发展。比如,20世纪90年代中期,数据挖掘的研究主要集中在关联规则和时间序列模式的挖掘。到20世纪90年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如classification based on association),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究的热点是半监督学习(semi-supervised learning)和半监督聚类(semi-supervised clustering),也是将分类和聚类这两种功能有机结合起来。近年来的一些其他研究方向如子空间聚类(subspace clustering)(特征抽取和聚类的结合)和图分类(graphclassification)(图挖掘和分类的结合)也是将多种功能联系和结合在一起。最后,交叉性导致了研究思路和方法设计的多样化。

因此,这些特性均是数据挖掘的特点,通过这四个特性可总结和学习数据挖掘。

二、大数据的特征

大数据(bigdata)一词经常被用以描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容及信息与信息之间的联系。研究大数据首先要理清和了解大数据的特点及基本概念,进而理解和认识大数据。

研究大数据首先要理解大数据的特征和基本概念。金准人工智能专家认为,大数据具有标准的“4V”特征:

1.Volume(大量):数据体量巨大,从TB级别跃升到PB级别。

2.Variety(多样):数据类型繁多,如网络日志、视频、图片、地理位置信息等。

3.Velocity(高速):处理速度快,实时分析,这也是和传统的数据挖掘技术有着本质的不同。

4.Value(价值):价值密度低,蕴含有效价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的商业和社会价值。

上述“4V”特点描述了大数据与以往部分抽样的“小数据”的主要区别。然而,实践是大数据的最终价值体现的唯一途径。从实际应用和大数据处理的复杂性看,大数据还具有如下新的“4V”特点:

5.Variability(变化):在不同的场景、不同的研究目标下数据的结构和意义可能会发生变化,因此,在实际研究中要考虑具体的上下文场景(Context)。

6.Veracity(真实性):获取真实、可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取真正有意义的结果。

7.Volatility(波动性)/Variance(差异):由于数据本身含有噪音及分析流程的不规范性,导致采用不同的算法或不同分析过程与手段会得到不稳定的分析结果。

8.Visualization(可视化):在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果。

综上所述,以上“8V”特征在大数据分析与数据挖掘中具有很强的指导意义。

三、大数据时代下的数据挖掘

大数据挖掘的核心和本质是应用、算法、数据和平台4个要素的有机结合。

因为数据挖掘是应用驱动的,来源于实践,海量数据产生于应用之中。需用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息应用到实践中去,从而提供量化的、合理的、可行的、且能产生巨大价值的信息。

挖掘大数据中隐含的有用信息需设计和开发相应的数据挖掘和学习算法。算法的设计和开发需以具体的应用数据作为驱动,同时在实际问题中得到应用和验证,而算法的实现和应用需要高效的处理平台,这个处理平台可以解决波动性问题。高效的处理平台需要有效分析海量数据,及时对多元数据进行集成,同时有力支持数据化对算法及数据可视化的执行,并对数据分析的流程进行规范。

金准人工智能专家认为,应用、算法、数据、平台这四个方面相结合的思想,是对大数据时代的数据挖掘理解与认识的综合提炼,体现了大数据时代数据挖掘的本质与核心。这四个方面也是对相应研究方面的集成和架构,这四个架构具体从以下四个层面展开:

应用层(Application):关心的是数据的收集与算法验证,关键问题是理解与应用相关的语义和领域知识。

数据层(Data):数据的管理、存储、访问与安全,关心的是如何进行高效的数据使用。

算法层(Algorithm):主要是数据挖掘、机器学习、近似算法等算法的设计与实现。

平台层(Infrastructure):数据的访问和计算,计算平台处理分布式大规模的数据。

综上所述,数据挖掘的算法分为多个层次,在不同的层面有不同的研究内容,可以看到目前在做数据挖掘时的主要研究方向,如利用数据融合技术预处理稀疏、异构、不确定、不完整以及多来源数据;挖掘复杂动态变化的数据;测试通过局部学习和模型融合所得到的全局知识,并反馈相关信息给预处理阶段;对数据并行分布化,达到有效使用的目的。

四、大数据挖掘与深度学习

大数据时代的来临使得数据的规模和复杂性都出现爆炸式的增长,促使不同应用领域的数据分析人员利用数据挖掘技术对数据进行分析。在应用领域中,如医疗保健、高端制造、金融等,一个典型的数据挖掘任务往往需要复杂的子任务配置,整合多种不同类型的挖掘算法以及在分布式计算环境中高效运行。因此,在大数据时代进行数据挖掘应用的一个当务之急是要开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。

之前提到一个数据挖掘有多种任务、多种功能及不同的挖掘算法,同时,需要一个高效的平台。因此,大数据时代的数据挖掘和应用的当务之急,便是开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。

以深度学习挖掘无标签的数据是大数据时代的一个热点。仅以医学领域为例,经过深度学习训练的图像识别,从辨别血液中癌症的早期成分,到识别核磁共振成像中的肿瘤,在许多情况下甚至可以做得比人更好。今后医疗就变成了一个数据处理的过程,利用深度学习可以在基因未能被勘测的区域发现自闭症和癌症的突变迹象,通过构建虚拟现实可以治疗毒瘾、酗酒、自闭症等疾病。同时,由于机器在处理病情时可以做到完全按照数据处理结果进行客观诊断,所以不会像人类一样因为情感方面的原因作出错误判断。

金准人工智能专家认为,深度学习带来更好的信息处理能力,不仅体现在人工智能领域,还体现在信息化医疗、经济社会、军事科技和资源环境等众多领域,从而产生广泛和深远的影响。有了深度学习,人工智能就会在语音识别、计算机视觉、自然语言理解、机器人、自动驾驶等领域取得突破性进展,甚至可以像科幻小说所描述的一样,使得所有的机器辅助功能都变为可能。

 

深度学习可以通过附加的过程和工具来帮助解决问题,从而为数据科学提供了极大的帮助。当从这个角度观察时,深度学习对数据科学领域是非常有价值的补充。

如上图所示,金准人工智能专家认为深度学习其本质就是数据挖掘,因为(深度)神经网络是机器学习(过程与体系结构)。同样可以看到的事实是,深度神经网络与当代人工智能有很大关系,至少两者可以交织在一起(然而,它们不是同一事物,人工智能是具有许多其他算法以及超越神经网络的技术)。还需要注意的是深度学习/深度神经网络与计算机视觉、自然语言处理和生成模型之间的联系,鉴于近年来在这些领域取得的巨大进步,深度学习和神经网络技术的联系是微妙的,但这种联系具有特别重要的意义。

那么,让我们来看看一些与深度学习相关的术语。

1. 深度学习:

如上所述,深度学习是应用深度神经网络技术解决问题的过程。深度神经网络是具有最小隐藏层的神经网络(见下文)。像数据挖掘一样,深度学习是指一个过程,它采用深层神经网络体系结构,其是特定类型的机器学习算法。

2. 人工神经网络(ANN):

机器学习架构最初是由深度学习的脑神经(尤其是神经元)所启发的。实际上,单独的人工神经网络(非深度变种)已经存在了很长时间,并且历史上能够解决某些类型的问题。然而,相对最近,神经网络架构被设计出来,其中包括隐藏的神经元层(不仅仅是输入层和输出层),而且这种复杂程度增加了深度学习的能力,并提供了一套更强大的问题解决工具。

人工神经网络在结构上与深度神经网络有很大的不同,因此没有明确的神经网络定义。所有人工神经网络通常引用的特征是拥有自适应加权集合,以及将输入的非线性函数逼近神经元的能力。

3. 生物神经元

通常,生物神经网络和人工神经网络之间存在明确的联系。流行的出版物宣传了人工神经网络在某种程度上是人类(或其他生物)大脑中发生的确切复本,但这显然是不准确的。充其量,早期的人工神经网络受到生物学的启发。两者之间的抽象关系不比原子与太阳系的组成和功能之间的抽象比较明确。

也就是说,如果仅仅了解人工神经网络的灵感,它确实能让我们看到生物神经元如何在很高的水平上工作。

 

我们感兴趣的生物神经元的主要组成部分是:

核:保存遗传信息(即,DNA)。

细胞主体:处理输入激活,并将其转换成输出激活。

树突:从其他神经元接受激活。

轴突:传递激活到其他神经元。

轴突末梢:与相邻的树突形成神经元之间的突触。

被称为神经递质的化学物质然后扩散穿过轴突末端和邻近的树突之间的突触间隙,构成神经传递。神经元的基本操作是激活神经元,处理,然后通过其轴突末端再传播出轴突,穿过突触间隙并到达许多接受神经元的树突,重复这个过程。

4. 感知器

感知器是一个简单的线性二元分类器。感知器获取输入和相关权重(表示相对输入重要性),并将它们组合以产生输出,然后用于分类。感知器已经存在了很长时间,早期的实现可以追溯到20世纪50年代,其中第一个涉及早期的ANN实现。

5. 多层感知机(MLP)

多层感知机(MLP)是几个完全相邻连接的感知机层的实现,形成一个简单的前馈神经网络(见下文)。这种多层感知机具有单感知机不具备的非线性激活功能的优势。

6. 前馈神经网络

前馈神经网络是神经网络结构的最简单形式,其中的连接是非周期性的。原始的人工神经网络,前馈网络中的信息从输入节点(隐藏层)向输出节点单向前进,没有周期存在。前馈网络不同于后来的经常性网络架构(RNN)(见下文),其中连接形成有向循环。

7. 经常性神经网络(RNN)

与上述前馈神经网络相比,递归神经网络的连接形成有向循环。这种双向流动允许使用内部的时间状态表示,这反过来又允许序列处理,并且提供了识别语音和手写的能力。

8. 激活函数

在神经网络中,激活函数通过组合网络的加权输入产生输出决策边界。激活函数的范围是从线性到sigmoid(逻辑)再到双曲线(相切)和超越。为了采用反向传播(见下文),网络中必须利用可区分的激活函数。

9. 反向传播

我曾经遇到过的最简洁、最基本的反向传播定义是数据科学家Mikio L. Braun 对Quora给出了以下答案:

BP只是个别错误的渐变下降,你可以将神经网络的预测与期望的输出进行比较,然后根据神经网络的权重计算误差的梯度。这将给你一个参数权重空间的方向,在这个空间中误差会变小。

 

10. 成本函数

在训练神经网络时,必须评估网络输出的正确性。由于我们知道训练数据的正确输出,所以可以比较训练的输出。成本函数衡量实际产出与训练产出之间的差异。实际产出和预期产出之间的零成本意味着网络一直在尽可能地进行训练,这显然是理想的。

那么,通过什么机制来调整成本函数,并将其最小化呢?

11. 梯度消失

梯度下降是一种用于寻找局部函数最小值的优化算法。尽管不能保证全局最小值,但梯度下降法对于精确求解或者难以求解的函数特别有用,例如将导数设置为零并求解。

 

如上所述,在神经网络的情况下,随机梯度下降用于对网络参数做出明智的调整,目的是最小化成本函数,从而使网络的实际输出更接近于迭代地达到预期的输出。这种迭代最小化成本过程采用的是微积分,即微分。在训练步骤之后,网络权重根据成本函数的梯度和网络的当前权重来接收更新,以便下一个训练步骤的结果可能更接近正确(通过较小的成本函数测量)。反向传播(错误的后向传播)是用于将这些更新分发给网络的方法。

12. 消失渐变问题

反向传播使用链式规则来计算梯度,其中朝向n层神经网络的“前”(输入)的层将其小数更新的梯度值乘以n倍,然后将该稳定值用作更新。这意味着梯度将呈指数形式下降,这是一个n值较大的问题,而前面的层次需要越来越多的时间进行有效训练。

13. 卷积神经网络

通常与计算机视觉和图像识别相关联,卷积神经网络(CNN)采用卷积的数学概念来模拟生物视觉皮层的神经连接网格。

首先,如Denny Britz所描述的那样,卷积可以被认为是图像矩阵表示上的滑动窗口(参见下文)。

 

这个概念在神经网络结构中的实现导致神经元集合专用于处理图像部分,至少在计算机视觉中被使用时。在其他领域(如自然语言处理)中使用时,也可以使用相同的方法,因为输入(单词,句子等)可以排列在矩阵中并以类似的方式处理。

14. 长短期记忆网络(LSTM)

 

长短期记忆网络(LSTM)是一种经常性神经网络,它经过优化,可以从相关事件之间的时间相关数据中学习,这些数据可能具有未定义或未知的时间长度。他们特殊的架构允许持久性,给ANN带来“记忆”。LSTM网络最近在手写识别和自动语音识别方面取得了突破。

总结

深度学习已成为企业创新、提高自身竞争力的有力工具,也是深入挖掘大数据商业价值的一大助力。但是,金准人工智能专家认为,普通大数据用户、数据科学家与深度学习之间的存在鸿沟。目前业内也有很多类似的框架或工具,通过集成相关框架,预置算法与模型,帮助用户更简单地构建深度学习应用,提高深度学习易用性。金准数据的独到之处在于帮助深度学习完成对大数据生态的无缝衔接,直接在现有大数据集群上运行深度学习工作负载,在充分利用现有资源的同时,拥有更高的效率。可以说,金准数据很好地填补了大数据与深度学习间的断层,也能帮助数据科学家更快地迈向深度学习。