• 项目
首页>>文章列表 >>金融科技
文章列表

中国“脑计划”预计年底出台 投资规模比肩美国

中科院神经科学研究所所长蒲慕明日前向第一财经独家透露:中国“脑计划”(脑科学研究计划)计划今年年底推出。

中国“脑计划”经过三年多酝酿,已经作为重大科技项目被列入“十三五”规划。早在2015年,中国科学家就对脑科学与类脑研究在中国“一体两翼”的部署达成初步共识。所谓“一体”,就是以阐释人类认知的神经基础(认识脑)为主体和核心;“两翼”是指脑重大疾病的研究及通过计算和系统模拟推进人工智能的研究。

蒲慕明表示,中国“脑计划”的投资规模将与美国“脑计划”相当,但具体细节尚未敲定,中国政府将会投入巨资,民营资本也有望参与,“等计划出台就好了,研发成果的推进和转化也会加速。”

第一财经记者查询发现,美国与欧盟的“脑计划”投资总规模预期分别为60亿美元和10亿欧元(约合12亿美元),期限则都长达10年。

业内人士表示,“脑计划”的推出,不仅能帮助科学家更好地认识阿尔茨海默综合征、抑郁等疾病的病因,对于中国人工智能(AI)的发展也有极大好处。


能治病也能助推AI发展

蒲慕明9月16日晚参加复旦大学举办的中国科技盛宴——“2017年度求是奖”颁奖典礼间隙对第一财经记者做出了上述表态。他说,过去多年来,中国脑科学领域的研究虽然取得了重大进步,但是这一领域的成果进展缓慢,“不过脑计划马上就要正式出台了,计划今年年底。”

“中国脑计划”的推出众望所归。欧美2013年就已全面启动面向未来的脑科学研究计划。中国则于2014年年底将“脑计划”项目列为国家重点科研项目,意味着人类在揭示大脑奥秘的征程正在跨越沟壑。

上个月,蒲慕明、郭爱克等院士在中科院院刊上发表专题文章,对脑科学与类脑智能进行阐述:“脑科学和类脑智能技术是当前国际重要科技前沿,其对人类健康和新一代人工智能技术及新型信息产业的发展意义重大,是国际科技界必争的重要战略领域。‘中国脑计划’将使我国未来15年在该领域处于国际前沿地位。”

文章称,脑科学和类脑智能技术二者相互借鉴、相互融合的发展是近年来国际科学界涌现的新趋势。脑科学研究对大脑认知神经原理的认识,提升了人类对自身的理解和脑重大疾病的诊治水平,也为发展类脑计算系统和器件、突破传统计算机架构的束缚提供了重要依据。


文章还提到,脑疾病是我国乃至全球人口健康领域正面临的重大挑战。全球有近10亿脑疾病患者,每年约带来经济负担1万亿美元。目前,绝大部分脑疾病尚无有效治疗方法。

复旦大学脑科学研究院学术委员会主任杨雄里院士今年早些时候接受采访时表示:“脑科学研究成果以及脑科学未来的应用,如今已引起科学界乃至大众的广泛关注。唯有对大脑的运作机制有更深刻的认识,才能推动各个相关学科领域的发展。”

杨雄里指出,中国脑科学目前的研究,要么是微观层面专注于单个神经细胞或少数细胞组成神经环路,要么是宏观层面应用活体成像技术,对一大群细胞进行总体活动分析,“对在宏观与微观层面之间的介观层面的认识,还十分匮乏。”


目前,人类对大脑和神经系统的研究深入到了细胞和分子水平,对神经信号的发生和传递的规律,以及与此有紧密关联的离子通道的结构、功能及运转方式,已有相当深入的了解;对困扰人们已久的若干大脑及神经系统疾病的病因和发病机制,也有了相当的知识积累。

不过,科学家对于包括阿尔茨海默综合征、帕金森、精神分裂、抑郁、药物成瘾以及中枢神经系统损伤等疾病的病因、发病机制的形成等仍没有清晰的认识。科学家希望基于“人脑地图”等最新研究成果的基础,对上述疾病做出早期诊断,并开发出更有效的治疗手段。

脑计划的推出,对于中国人工智能的发展也具有极大的好处。可以预期的是,脑科学与信息科学、计算科学及其他工程科学之间的联系会更加紧密,彼此间的互动将会更为活跃。

在中科院和墨子沙龙上个月联合举办的探索者大会上,中科院上海神经所研究员郭爱克院士表示:“借助脑功能联接图谱,有助于人类了解完美的大脑。”

中科院在2012年启动了脑功能联结图谱项目,研究各个层次下脑的神经环路、神经网络和神经联结图谱,有助于人们了解大脑工作的机理,为类脑智能或者人工智能带来启发。

参与“脑计划”筹备工作的,除了中科院神经科学研究所,还有中国的各大高校,如北大、复旦和浙大。

去年为美国脑科学计划捐款1亿美元的盛大创始人、中国前首富陈天桥在今年早些时候接受第一财经记者专访时称,已经与上述院校展开接洽,参与中国脑计划。他表示:“中国脑计划是能够让民营资本参与其中的项目。我们希望自己贡献的不仅仅是资本,更多的是智慧。”


欧美占得先机

2013年以来,美国与欧盟均启动了面向未来的“脑计划”,以期占得先机。

美国的“脑计划”致力于利用新的技术手段描绘人脑活动图谱,以探索大脑工作机制;欧盟的“脑计划”则希望借助信息与通讯技术(ICT),构建系统生成、分析、整合、模拟数据的研究平台,从而推动人脑科学研究加速发展。

美国“脑计划”由美国国家卫生研究院(NIH)牵头,其下属十余个研究机构参与了计划。2013年9月,NIH脑计划工作组提出了2014财年的包括统计大脑细胞类型、创建大脑结构图谱、开发大规模神经网络记录技术等在内的9个资助领域。统计数据显示,到了2016财年,NIH向脑计划项目的投资高达1.35亿美元。


本月,根据美国参议院通过的2018财年(2017年10月1日至2018年9月30日)预算的新版草案,将延续前两年每年增加20亿美元的惯例,增幅是众议院版本的两倍,达到6%。在新版草案中,阿尔茨海默综合征的研发经费增幅最大,达到30%,比去年增加了4亿多美元;脑科学的研发投入加大了,绘制人脑活动图谱的人脑计划增资1.4亿美元,2018财年总共将投入4亿美元;精准医疗研究经费增加6000万美元。

中科院上海神经所党委副书记王佐仁曾援引北大生科院饶毅教授提供的数据显示,美国国家每年投入神经科学研究的资金是50亿美元,中国是2亿美元,只有美国的4%。王佐仁对第一财经记者表示:“这还没算美国私人基金投给科研的钱,如果加上,差距更大。”

欧盟“脑计划”有百余所欧洲院校和研究中心参与,项目为期10年,欧盟委员会和参与国将提供近12亿欧元经费。计划分为三个重要阶段,分别是2013年10月至2016年3月的“快速启动”阶段,2016年4月至2018年8月的“运作阶段”,以及最后3年的“稳定阶段”。在快速启动阶段中,已如期完成了6个信息与通信技术研究平台的搭建工作,使各国科学家能够对大脑研究数据进行共享、编译和模拟。

去年9月,欧盟宣布为脑计划增资近1亿欧元。欧盟委员会在《人脑计划报告》中指出,脑科学研究对人类具有重要意义,探明人脑运作机制将有助于开发新的脑部疾病治疗手段,并建立革命性的信息与通讯技术。报告认为,当前脑研究的主要障碍是数据片段化,因此迫切需要通过信息与通讯技术来整合数据,将此前分散的研究进行融合,为深入了解大脑结构和功能之间的关系提供全新的视角,并为科学家提供新的研究服务平台。

铝的跨年度套利大戏:那些现实和讲“故事”的事儿

印象中,铝经常是一副暮气沉沉、老气横秋的样子,月间价差更是死水一潭,极少波动,让人都懒的关注。没想到的是,在种种“故事”的描绘下,近两年铝的期现市场竟也上演了一出又一出的精彩大戏来。


1、铝水直供和产能复苏的“故事”

经过2015年底的暴跌,铝价跌回上个世纪水平后,终于出现了一波持续数月之久的上涨。与此同时,关于铝的“故事”开始在市场上流传。

一方面,为进一步降低成本,冶炼厂纷纷与下游铝加工企业开展铝水直供的销售模式。这种销售模式节省了“热铝液冷凝成铝锭、重新热熔成铝液”的流程,既缩减了生产时间,更节约了大量成本,据说每吨铝能节约成本达800元,对于亏损严重的电解铝行业来说,800元的利润高的能让人流一地的口水。

因此,市场不少人士断言:将来铝锭紧缺将成行业常态,而铝锭库存再起时,必是铝价下跌之始。


在铝水直供比例提高、铝锭供应减少的预期下,不少人开始有意识地囤积铝锭资源,对现货供应将步入紧张的预期开始蔓延。(据当年6月份行业数据显示,当月全国70%的电解铝产量实现了铝水直供模式,部分省份已经达到100%的比例。)

另一方面,当铝价从不足万元拉升到13000附近后,市场预期铝的过剩产能将会纷纷复产,因为如此高的价格,很多前期关停的产能都将有利可图从而复产,因此对远期价格比较悲观。

由于2016年房地产市场的火爆,铝的消费出乎预料地强,而过剩产能却因为资金、环保等问题迟迟不能复产。随着旺季的到来,铝锭社会库存从春节后近100万吨一路狂跌到20万吨左右,创出有纪录以来的历史低点,现货升水也一路走高。


就这样,现货市场在库存大降、消费超预期的背景下呈现供不应求的景象,而期货市场却受到产能复苏预期的打压,铝期货各合约呈现出深度的Back结构,如沪铝1607-1609合约价差竟从-100变成470左右,价差走强约600点,获利空间堪比一次不错的波段利润。 

其他月份合约的跨月价差也大致如此,隔月价差经常高达200多点,对于12000元-13000元的铝价来说,幅度约2%。

而一向比较活跃的铜期货,却因为基本面上没有什么“故事”可讲,竟成了一潭死水,甚至出现了三四个月的合约价格一样的奇葩现象,让人不免感慨:风水轮流转,今年到“铝”家!


2、运输新政带来的突发行情

8月中下旬后,随着库存的缓慢回升,现货市场升水一度回落,各期货月价差略收缩,下游工厂也稍稍缓了口气。

然而,9月后行情却出现了始料未及的变化。先是新疆车皮紧张,大量铝锭积压在铁路站台,无法如期运至华东消费区域,导致库存再次转为下行;

之后,“921新运输政策”出台,交通部门在全国范围内开展了史上最严厉的治理超载超限行动,导致公路运输节奏被彻底打乱,运输企业要么大幅提高运费,要么停车观望风声,部分运输线路有价无车。

社会库存本就偏低,运输节奏被这样一搅,现货市场再次鸡飞狗跳起来,叠加上国庆长假下游工厂的备货需求,导致现货升水居然一路到了近700的水平,活生生地让大家见识了一下什么叫“铁树开花”“咸鱼翻身”。

在现货升水的强烈带动下,期货合约的价格倒挂幅度再次扩大。1610合约-1701合约价差从9月初的180点附近,一口气拉升到10月初的930点左右,一个月的时间出现700多点的价差扩大,真是罕见的行情!

只可惜,这次的交通治理行动有些突然,且严厉程度始料未及,有多少人能预料到如此剧烈的现货升水抬升和期货价差扩大呢?即便是原来持有的现货库存抑或跨期套利的头寸,大都早早地见好就收,哪能享受到最后的利润呢。


3、春节累库存与通胀预期的“故事”

10月份开始,在国内黑色品种翻倍式暴涨以及“特朗普基建计划”的刺激下,市场情绪极为亢奋,居然开始炒作未来的通胀预期。

在乐观情绪的感染下,铜、铝、锌、镍等有色金属品种也不甘落后,即便是预期产能将大量复苏的铝,也在短短一个月多的时间里,价格从12000元附近拉升到15000左右。

虽然现货库存的紧张局面在10月份并未得到有效缓解,但期货价格短期上涨3000元之巨,有力地打压了现货升水,使得现货升水逐步回落到平水附近。

进入12月后,现货库存开始逐步积累。市场的逻辑,已经悄然转变为远月有通胀预期、价格上涨有支撑,近月却逐步受制于春节期间库存将大量累积、现货将大幅贴水的压制。于是,对铝的跨期套利,也应顺势转为空近月、多远月的反向套利。


4、超高库存的现实与去产能预期的“故事”

由于铝价拉涨导致冶炼企业普遍出现盈利,企业生产热情较高。春节之后,铝锭库存节节攀升,转而不断刷新历史最高记录。到9月份左右,国内5地库存居然到了160万吨的超高库存水平。

在库存高企的严峻现实面前,现货市场今年持续贴水期货,最多常贴水到200以上的水平,呈现出消费不旺的态势。

而另一方面,从4月份新疆昌吉州开始清理电解铝违规产能以来,市场对供给侧改革的预期大幅升温,去产能的“故事”开始支撑起铝价,期货各月价差正向排列的格局彻底奠定。

8月份,山东魏桥关停电解铝违规产能268万吨的消息,彻底打破了空头对地方政府保护当地大型企业的最后一丝幻想,市场对此轮政策的执行力度再无怀疑;

叠加之后“2+26”城市在采暖季电解铝厂限产30%以上的政策细则的出台,市场预期铝市将进入紧平衡甚至供不应求的局面,铝价如同旱地拔葱一般,兀自从14500元左右拉升到17000元附近。

在超高库存的现实压力和去产能预期的支撑下,铝的跨期套利策略,无非就是不断地空近月、买远月,不断地逢低做反套。虽然价差波动的幅度不能与去年现货高升水时期相比,但风险极低,几个月滚动下来,收益也实属不错。


5、期货市场的“故事”特性

说完铝的套利操作,我们再来聊聊铝的单边走势。

大家是否还记得2016年初,市场对铝水直供新模式下“铝锭将长期低库存,一旦铝锭高库存就表明消费较差,铝价将展开下跌”的判断吗?不错,在70%产能都采取铝水直供的新模式下,这一论断显得十分合情合理。

然而,真实情况却是,去年8月份历史极低库存20万吨左右时,铝价才12000元上下;如今160万吨的超高库存时,铝价却一度逼近17000元。与当初的市场判断相比,简直是开了一个天大的玩笑!

不过这也怨不得任何人,当初市场讲的是铝水直供的“故事”,如今讲的却是严格去产能和环保高压的“故事”,“故事”变了,市场的逻辑自然也变了。

所以,期货做多了,每当看到研究报告里对未来的分析,脑海里经常会想起儿时的那首歌“故事里的事,说是就是不是也是;故事里的事,说不是就不是是也不是……”

火币网、OKCoin负责人、高管被要求不得离京

虚拟货币监管风暴升级,在宣布10月底逐步停止所有数字资产兑人民币的交易业务之后,9月16日,火币网、OKCoin币行均修改公告称,下一步将停止所有关于虚拟货币的交易业务。

新京报援引知情人士称,火币网、OkCoin等平台负责人、高管目前被要求不得离京,配合调查。

业内人士对新京报表示,此举意味着在平台上开展币币交易,或是提供信息撮合式的个人对个人之间的虚拟货币交易业务,也将被全面叫停。比特币在国内的场内交易渠道几乎全被封死。


火币网、OKCoin将停止所有业务

此前据财新报道,监管当局的要求是各交易所要制定妥善的清退方案,保证在9月底前关停。9月15日北京市整治小组约谈的对象,包括了火币网、OKCoin币行这两家在国内交易量排名前三的比特币交易平台。

因这两家平台涉及到的交易规模、人数较大,并且此前没有做过ICO或上线相关代币,因此有关部门决定,将给予火币网、OKCoin1个月时间的缓冲期,也就是说可以到10月底再关停,但具体方案还在研究当中。

9月15日,国内数字货币交易网站火币网和OKCoin币行分别公告称,将在10月31日前依次逐步停止所有数字资产兑人民币的业务,但公告中明确“仅停止人民币交易业务,其余业务不受影响”。

而一天之后,两家公司又同时修改上述公告,删去这句话,改成了“本次火币网(OKCoin币行)将停止所有虚拟货币交易业务”。


业内人士:平台负责人暂时不得离京

“一切都结束了,仅有的幻象也破灭了”,新京报援引多位业内人士称,虚拟货币场内交易的一切将随着OKCoin币行、火币网两大平台宣布关停所有业务而结束。ICO遭监管严打被判“死刑”之后,比特币等虚拟货币交易平台也被清退。

新京报称,9月15日之前,业内曾抱有幻想。尽管监管层认为比特币等涉嫌洗钱、非法集资等风险,但监管层也曾制定多个版本的监管方案,包括“一刀切”全部关停、限期分步关停人民币等法定货币与比特币等虚拟货币自由兑换,甚至曾有一个版本建议鉴于OKCoin币行和火币网这两大平台运作规范,未上线ICO代币等,建议予以保留。


“在9月8日召开的监管层会议上,OKCoin币行和火币网还曾被监管层表扬”。一位知情人士对新京报表示,当时虽然有监管声音传递出来要关停虚拟货币交易所,但是,业内仍对上述两个平台抱有希望。

9月15日晚间,OKCoin币行、火币网发布停止人民币交易业务的公告。“这样的做法,意味着投资者还可以在平台上进行币币交易,虽然这样的交易对平台的收入贡献不足两成”。一位知情人士对新京报解释道,关停人民币交易业务其实已经意味着这家平台基本活不下去了,相当于变相关停。

然而,9月16日午间,上述两平台还是宣布将停止所有虚拟货币的交易业务。不过,多家平台已经转移海外,布局海外币币交易等。

多位知情人士向新京报透露,目前各比特币交易平台负责人、高管等都不得离开北京,要配合调查。按照监管要求,各交易平台股东、实际控制人、高管、财务负责人等在清理退出期间要在京全力配合相关工作。

随着这两家虚拟货币交易平台关停所有业务,预计比特币价格还将下跌。不过,目前随着利空基本出尽,投资者心态暂时平稳,比特币盘面也暂时走稳。


比特币目前价格走势 

股灾两年后,A股两融余额再度逼近万亿大关

1. 为什么我们关注融资融券

两融作为场内加杠杆行为,很大程度上反映了市场情绪和参与主体对大盘(或个股)走势的预期。从历史数据来看,两融规模同上证综指走势的拟合度还是相当高的(因为两融标的物主板占比75%左右,我们暂用上证综指做标准)。


刨除15年以来的高值,放大看16年以来的数据,结论依然成立。今年以来两波像样的涨幅,也都伴随着两融余额的持续上升。从融资买入额的角度看更加直观,每一次指数上行,同时都能看到融资买入额走出更陡峭的斜率。



2. 回顾政策,这一次两融走高的增量信号

我们回顾这两年来的规则变动,除了股灾当时为了防止大规模强平,曾做过一些救市措施,在15年6月发布征求意见稿里(7月正式发布),取消投资者维持担保比例低于130%应追加担保物的规定,并不再将强制平仓作为证券公司处置客户担保物的唯一方式,另外拓宽融券卖出价款用途、允许两融合约展期等。

但是整体来看,15年杠杆牛里投机情绪的泛滥,还是给了大家一次很好的教训。新规也针对场内加杠杆行为做出了一定限制,其中比较重要的包括:

①明确个人投资者最低资产要求为50万元(此前为20万);

②要求证券公司的两融业务规模与公司的净资本相匹配,要求两融金额不得超过净资本4倍;

③规定客户信用交易资金由第三方监控(之前靠券商自我约束和存管银行监督)


15年底交易所再对两融交易细则做出部分修改,其中比较重要的包括:

①对融券行为的自由度做出限制,规定客户融券卖出后,次一交易日起可通过买券还券或直接还券的方式向会员偿还融入证券(之前的规定里则没有“次一交易日”)。

②提高融资保证金比例,有原来的50%提高到不能低于100%,也就是说原来可以加到1:2的杠杆,现在只能是1:1,但是也仅针对新增合约,另外存量合约可以展期,所以现在能看到一些券商对一些标的,仍然有低于100%的保证金比例。

③新增“静态市盈率在300倍以上或者为负数的A股股票折算率为0”,这意味着,如果账户里是股票而不是现金,则能够融到的钱比以前更少。结合保证金和折算率的规定,实际上就是一个强制去杠杆防风险的过程。

——说这么多只是为了说明一个道理,那就是相比于两年前,通过融资融券加杠杆的难度比当时要大,因此如果我们还能看到两融余额不断向上突破,应该来说是可以反映市场主体的参与情绪有所增强。


3. 对比两年前,杠杆加在了哪里

我们将6月以来两融走高的区间与2年前的杠杆牛做比对,由于交易所会对标的物进行调入调出,因此相比2年前,融资融券标的各行业占比也发生了相应变化。交运、银行、纺织服装标的占比提高最多,有色、医药生物、机械设备占比降低最多。


我们看两融交易规则对股票标的的要求,其中上市时间、流通股本和市值(融资1亿/5亿,融券2亿/8亿)、股东人数、完成股权分置改革等,都不太容易成为上述变化的原因,因此大概率是其中关于换手率、波动幅度的规定导致了一些标的调入调出。细则规定,标的股票要满足:

①日均换手率低于基准指数日均换手率的15%,且日均成交金额小于5000万元;

②日均涨跌幅平均值与基准指数涨跌幅平均值的偏离值超过4%

③波动幅度达到基准指数波动幅度的5倍以上

——因此不难理解有色、机械、煤炭等被较多调出的现象。但即便如此,我们看下图融资净买入额的行业数据,即使在标的减少的情况下,目前融资买入交易情绪最高的依然是有色行业,另外,化工、采掘、钢铁等周期行业也排在前面,其他交易热情比较高的还包括受益周期改善资产负债表的银行、电子和计算机、以及食品饮料、休闲服务等消费行业。



4. 理性看待,难为前瞻指标&佐证增量资金

回到最开始的这张图,融资买入行为的确同市场走势有高度契合之处并且能反映市场主体的参与热情,但也要看到,这一指标最多是个同步指标,并没有太强的预示作用,甚至会表现出些许的滞后性。在市场回调之前,常常能看到融资买入额突然迅速的向上突破;政策规则的变动,也常常难以改变方向,因此也不要过度依赖两融指标做方向判断。


但是两融指标的提升是股市增量资金的重要证据,我们看到8月日均成交额5101亿较7月的4630亿上了一个台阶,9月截止14日日均成交额超过6000亿(其中12日超过7500亿),比8月又是上了一个台阶。两融的数据可以一定程度上说明成交量的提高并不仅仅来自于换手率反映的交易活跃度,而确实是有增量资金入场的,背后则可能是银行委外等资金权益配置的提高。


两融数据的基础上,我们继续建议要重视券商板块的弹性。6月以来我们以配置的角度推荐券商龙头(估值便宜、集中度提升,以华泰证券为代表的龙头表现出色),827日的周报《指数突破,关注券商从配置机会向弹性品种的转变》则强调,随着市场有效突破3300点和融资余额的连续回升,券商板块的弹性凸显,有望进一步催化。

马云谈战略布局:重要的不是买,是合作和学习

OpenAI发布多智能体深度强化学习新算法LOLA

OpenAI今天更新博客,发布了一种新的算法,能够让智能体在学习的过程中考虑到其他智能体,并且发现有利于自我同时也有利于协作的策略。这种算法被称为“考虑对手学习情况的学习”(Learning with Opponent-Learning Awareness,LOLA),是朝向构建能够对其他智能体建模的智能体迈出的一小步。



LOLA:首次在深度强化智能体中体现人类合作的“心智理论”

具体说,LOLA智能体“Alice”会对另一个智能体Bob的参数更新进行建模,建模的过程依赖于Alice自己的策略以及Bob参数更新对Alice预期回报的影响。然后,Alice会更新自己的策略,让其他智能体(比如Bob)的学习步骤更有利于自己的目标。


LOLA智能体可以在游戏(比如迭代的囚徒困境或捡硬币游戏)中,发现有效的互惠策略。相比之下,最先进的深度强化学习方法,比如 Independent PPO,无法在游戏中学习这样的策略。这些智能体一般都会学习采取自私的行为,忽视其他智能体的目标。LOLA解决了这个问题,虽然也是让智能体采取有利于自身利益的行动,但这个行动也包含了其他智能体的目标在里面。有了LOLA,就不需要手工制定促进合作的规则,也不需要设置环境条件鼓励合作,智能体能自动探求倾向于合作的行为。


研究人员表示,LOLA的灵感来自于人类是如何合作的:人类非常擅长于推理自己的行动将如何影响其他人未来的行动,并且经常发明与其他人合作的方式来实现“双赢”。人类善于合作的原因之一,是他们对其他人有一种“心智理论”(theory of mind),这让他们制定出为合作方带来好处的策略。


到目前为止,这种“心智理论”还没有在深度多代理强化学习中得到体现。对于当前最先进的深度RL智能体来说,另一个智能体只是环境中第一部分,跟一棵树没有固有的区别。




数学证明:纳入“项”进行对手学习步骤的参数建模

LOLA性能的关键是项的纳入(inclusion of term):



在这里,左边描述了Alice的回报如何取决于Bob策略的变化。右边描述了Bob的学习步骤如何依赖Alice的策略。两者相乘,基本上就描述了Alice如何通过改变Bob的学习步骤让Alice自己奖励增加的情况。


研究人员表示,他们在训练智能体时,智能体会尝试在预期对手的的学习步骤之后,再对自己的回报进行优化。通过预期对手的学习步骤,智能体可以主动塑造(shape)对手的参数更新,让对手更新的结果对自己有利。


研究人员表示,上述公式假设能够获得两个价值函数的真实梯度和粗糙度(hessian),还可以使用样本来估计所有相关的项(term)。特别地,可以通过应用策略梯度定理来估计二阶项,这使得LOLA适合于任何深度强化学习环境

数学推导示例,详情请参见论文

我们可以在LOLA里增加一个步骤——对手建模,基于其他智能体的行动来预测其参数。研究人员表示,他们将来还会就此进行拓展,比如从观察到的学习中推断架构和奖励。



实验结果

LOLA可以在两种情况下工作,一是可以获得其他智能体的策略(LOLA),二是只能通过跟踪估计其他智能体的状态(LOLA-OM)。 在捡硬币中,两种方法都可以拿出更多的硬币(图(a)),并且比其他方法的得分要高得多(图(b))。


LOLA训练出了更成功的智能体。在捡硬币游戏中,两名智能体(红和蓝)相互竞争捡硬币。硬币也分为红色和蓝色,当智能体捡起一个与自己颜色相符的硬币时就得1分,但捡起颜色不符的硬币会被扣2分。因此,如果两个智能体都很贪心地捡硬币,不分颜色,那么每个人平均都得0分。LOLA智能体能够学会主要拿起与自己颜色相符的硬币,从而得到更高的分数。


研究人员还探讨了目前LOLA的缺点及改进方向。当使用大的批次大小和full roll-outs减少差异时,LOLA的效果最好。但这也意味着这种方法对内存和计算力的需求都很高。此外,在对手建模的情况下,LOLA不是很稳定,研究人员希望未来能够改进并解决这个问题。



论文:考虑对手学习过程的学习




摘要


在机器学习中,多智能体(multi-agent)设置变得UI而来越重要。除了最近出现的很多深度多智能体强化学习(deep multi-agent reinforcement learning)的工作外,分层强化学习(hierarchical reinforcement learning),生成对抗网络和分散优化( decentralized optimization)都可以看作是这种设置。


但是,在这些设置中,多个 learning agent 的存在使得训练问题不固定,而且经常导致训练不稳定或得到不符合期望的最终结果。我们提出 Learning with Opponent-Learning Awareness(LOLA),这是推断其他智能体的预期学习(anticipated learning )的一种方法。LOLA 学习规则包括一个额外的项(term),用于估计该agent的策略对于其他agent的预期参数更新的影响。


我们的研究显示,可以使用似然比策略梯度更新的扩展来有效地计算LOLA更新规则,使得该方法适合于无模型强化学习(model-free reinforcement learning)。因此,该方法可以扩展到大的参数和输入空间以及非线性函数近似。初步结果表明,两个LOLA agent 的相遇导致“以牙还牙”( tit-for-tat)的出现,最终在无限重复囚徒困境中出现合作。


在这个领域,与原始的学习者相比,LOLA的收益也更高,而且对于基于更高阶梯度的方法的开发,LOLA也是稳健的。对于无限重复猜硬币博弈,只有LOLA智能体收敛到纳什均衡。我们还将LOLA应用于使用深度递归策略的的嵌入式社会困境的 grid world 任务。同样,通过考虑其他agents的学习,LOLA agents 学会了出于私利的合作。

饿了么、百度外卖完成互联网史上最快架构调整 对抗劲敌美团

22天完成合并后的架构调整,这是饿了么百度外卖创造的速度。

2017年9月15日,饿了么母公司拉扎斯集团发内部邮件,宣布饿了么和百度外卖继8月24日合并后的首轮架构调整通知。

通知任命:

原饿了么商业分析副总裁魏海担任百度外卖新CEO,负责百度外卖业务及双品牌战略落地工作。

饿了么向全天候科技确认,魏海原来主要负责饿了么的商业分析,相当于CEO的主要军师,是最接近核心业务的副总裁之一。


此外,该通知还任命:

百度外卖原CEO巩振兵担任百度外卖董事长,负责集团及百度外卖战略布局及关键业务梳理;

百度外卖其他管理层人员任用保持不变。

而在百度外卖管理层中,CTO耿艳坤已确定离职加入顺丰,其他技术大牛均保留下来。


其他相关人员的任命还有:

百度外卖技术经理戴少伟戴少伟除负责现有业务领域,同时负责集团新零售产品研发相关工作;

百度外卖研发中心技术总监崔代锐崔代锐除负责现有业务领域,同时负责集团即使配送研发相关工作;

百度外卖技术委员会主席蒋凡被任命为北京技术中心技术委员会主席、首席架构师、集团高级科学家,统筹规划北京技术中心技术架构,参加集团技术架构工作。

以上这些技术大牛均向饿了么CTO张雪峰汇报。张雪峰曾任职携程CTO,据说当时就曾与百度技术部门有长期合作关系。

在业务融合方面,

百度外卖零售渠道团队和医疗健康业务团队融合至集团新零售BU;

百度外卖TPU和饿了么北京研发中心合并为北京技术中心,张雪峰兼任北京技术中心负责人;

百度外卖财务、采购、预算管理、法务部门融合至集团财务部。

但在两家公司宣布合并时,饿了么CEO张旭豪曾在内部信中提到并购后双方的运行模式,他表示:

让百度外卖保持既有的品牌和组织架构独立运营,会是最好的决策。我相信,以CEO巩振兵为首的管理层,能够继续领导百度外卖沿着品质外卖的方向开疆拓土,保证百度外卖的新老用户和商户获得稳定且高水准的服务。


从此次人事架构调整看,饿了么百度外卖遵循了滴滴合并快的、美团合并大众点评的逻辑:权利集中到收购方,资源整合由收购方统筹。饿百此次人事调整后,大权掌握在饿了么一方的高管手里,双方的资源整合也由饿了么来统筹。

从8月24日官宣算起,饿了么和百度外卖合并后仅22天就发布了详细的人事架构调整通知,堪称互联网史上最快纪录。滴滴快的合并两个月后,才有媒体公布新公司的架构和团队整合情况,而美团点评则是在合并一个月后公布人事调整。

据近日艾媒咨询发布的2017上半年餐饮外卖市场报告,饿了么以41.7%的份额保持领先,美团外卖以41%的占比紧随其后,百度外卖则保有13.2%的份额。饿了么合并百度外卖后,二者市场份额超过50%,与美团形成更加激烈的对抗局面。

饿了么百度外卖架构调整通知原文如下: