幸运飞艇彩票开奖网站
宽潮组合课量化培训 9月24日第3日学习笔记 发布日期:2016-10-10               类别:原创天地

今天在非常安静的情况下,通过后台数据观察到大家的热心?#25512;?#24453;,虽然是周末,依然给予我们很高的回应。


今天的讲师也比较给力,早晨讲解了matlab的一般应用,李洋老师已在某基金公司成为基金经理,对于matalb仅作为主要工具之一使用,对于策略的理解才是最深入的,下午重要嘉宾主要和民间资本合作,实际上已经构建了全品种对冲和超强的资金管理获利能力,晚上出乎意料两位大师,一位讲解套利交易中基本面分析的重要因素,另一位则是22岁已经管理3个亿资本的郑玉峰老(同)师(学)……


做好准备,老司机踩油门了。


早间课程


《matlab在量化投资中的具体应用》 李洋 


首先讲解了如何快速学习matlab,然后介绍了一些使用matalb开发的策略模型。


然后展开讲解了一个open range breaker,也就是经典的RB经典策略。这个策略刚开始赚钱很容易。该模型使用开盘价,形成一个benchmark,目前的改良方法,是benchmark = open + n*ATR,上下轨类似。


李老师说:我这边的策略细节,也是benchmark做改良,我是在当天开盘价N?#31181;?#20869;,对价格求均值,我们用的是1?#31181;覭线,然后生成上沿下沿,做?#40644;?#25805;作。


很遗憾没能拍到李洋老师照片,虽然中午?#40644;?#36827;餐竟然都忘记了,只能?#30431;?#30340;书来替代了。


如果我们再抽象一层,这个benchmark是某些变量的函数,?#28909;?#24320;盘价、昨日收盘价、波动率,上沿下沿的生成,应该是不一样的,跌容易,上涨难。各品种的多空状态,并不是很对?#39057;摹?/span>


?#28909;?#25105;可以用一个值,来生成新的benchmark,这就是我们自己的RB,区别于其他团队。如果策略太相似,冲击成本会特别高。我们应?#30431;?#32771;,这类策略为什么一直存货。


纵轴是频数,横轴是收益率。答案是:收益?#21490;?#24067;肥尾(大家可以绘图分析,尖峰肥尾)。广发做过分析,上下沿?#30431;?#26426;数生成,也是可以盈利的。


我们可以看一个跨期套利的案例,协整,ADF检验,得到价差。交易的时候,是对价差进行交易。模型不难,但是远月交易成本较高。还有跨市场跨品种套利,豆油和棕榈油,铜和锌。在matlab高?#37117;?#37327;经济学工具箱,有一个协整检验。


matlab内置的函数可以进行K线绘制。还有技术指标,SMA、EMA(以指数式递减加权价格,递归方式来计算,越远离当下,权重外衰)。在未来计算大批量代码编写的时候,注意编程风格问题。AMA方面也值得使用,他的平滑系数,是用ER系数进行变化的。通过效率系数ER,可以给出曲线和震荡的定义。


AMA这部分量化投资训练营之前的夜报已经多次分析过。ER系数来自Kaufman的自?#35270;?#22343;线系?#22330;?/span>


步骤1:价格方向

价格方向被表示为整个时间段中的净价格变化。?#28909;紓?#20351;用n天的间隔(或n小时):
direction = price – price[n];

其中,direction是当前价格差或方向数值,price是当前价格(当日收盘价或小?#31508;?#30424;价),price[n]是n日前的收盘价(或n个周期前)。


步骤2:波动性
波动性是市场噪音的总数量,它可以用许多不同的方法定义,但是这个计算使用了所有“日到日?#34987;頡?#23567;时到小时”的价格变化的总和(每一个都作为一个正数),在同样的n个周期上。
如下表达:
volatility = @sum(@abs(price – price[1]), n);

其中,volatility是指波动性数值,@abs是绝对值函数,@sum(value, n)是n个周期中的数值之和函数。


步骤3:效率系数(ER)
以上两个成分被组合起来,?#21592;?#36798;方向移动对噪音之比,称之为效率系数,ER:

Efficiency_Ratio = direction/volativity;

用“方向性”除以“噪音?#20445;?#35813;系数的值就从0到1变化。?#31508;?#22330;在全部n日以同一方向移动时,则方向=波动性,效率系数=1。如果波动对于同样的价格移动是增加了,?#23433;?#21160;性?#26412;?#21464;得较大并且ER往小于1的方向移动。如果价格不变化,则方向=0,ER=0。


每一个技术指标,一定要了解背后的意义,然后使用。?#28909;鏜ACD等其他很多指标,其?#30340;?#25226;均线梳理很透彻的情况下,会发现很多技术指标都是均线的再复合(我强烈认同该观点,并对此进行了长达一年多的分析)。


最后介绍了万德和大奖章接口,同花顺ifind接口,都是可以使用的。当公司创建初期,规模没上去的时候,建议先用第三方?#25945;?#25226;产品跑起来,然后规模上去之后,可以自己开发?#25945;ā?/span>


接下来做一个基于matalb的交易品种分析。


?#28909;鏟TA没有外盘,连续?#38498;?#22909;,2013年制度修改存量资金少了,不好操作的了。我们给出两个方式进行定义:


流动性:

规则1:成交量/持仓量 每一个时间截面(监控),给出全市场流动性排序,实战中,我们一般做一个N日平均处理,每一个月,半个月,进行调整。这个N周期,和你的策略持仓周期也有很直接的关系。

规则2:对于开始交易的品种,监控流动性实?#39318;?#21183;,历史分布,左侧可以少交易、低仓位。


波动性:
趋势性系统的盈利能力,和波动性成正比。

波动性,有3个描述方式。是高相关性的。


最直观的方式,是定义一个波动率,波动率小于某一阈值的情况下,可以少交易,不交易。
规则1:20日波动性MA > 25分位数,就交易

规则2:用这个?#21592;戎到?#34892;仓位控制,满仓、半仓、暂停


有了流动性规则、波动性规则,就可以放在?#40644;穡?#36827;行交易品种控制。那么针对震荡策略呢?可以想象,当某个时间级别的趋势类策略关闭的时候,震荡类策略可以开启。


相关性检验的时候,要记得做时间轴校正(数据清洗),这是很多人忽略的,否则日期不能对应。如果剔除了太多,显然统?#22484;?#20041;是不强的,所以要做差值来弥补。那么到底需要向后回溯多远,计算相关性合理呢?这部分没有定论,因为牵扯到很多基本面影响因素。


相关性分析方面,求出他们之间的相关系数。这个课题有利于构建一个收益和风险互相包容,能够实现对冲效果的投资组合。


通过数值回测给出交易系统的表?#37073;?#36825;是大家都知道的,所以我们可以用matlab构建一个回测系?#22330;?/span>


原始策略提出的?#24904;?/span>
1、国内卖方金工报告,万德,迈博汇金
2、计量金融分析报告《高?#37117;?#37327;经济学》

3、SSRN.COM,如国外有一个futures magazine

4、团队自己的Alpha挖掘,团队交流,挖掘交易策略


关于期货主力合?#32423;?#20041;,有不同方式,大致是成交量/持仓量最大,即可。隔夜策略的测试,会有很大区别,各个第三方?#25945;?#37117;不一样,所以这是需要注意的。期货数据这块的坑,是巨大的,近月远月,升贴水问题。我们做量化的,第一步就是做数据,不要用回测自己骗自己。

我也求证了几个问题:


通道类策略的上下轨,针对商品,多空相似,用一个比率是否可以?李阳老师认为:其实不合适。因为上涨下跌启动点的形态,是不一样的。这里应该设置不同参数,不要怕拟合。


某个主力连续合约数据失真,存在大跳空,但是主力指数,也失真吗?答——也失真,比?#38480;限危?#38548;夜策略的评估效果,在实盘中可能不能令人满意。


关于分散参数,分析参数热图,我的办法是,如果有多块高点区域,寻找交易次数较高的参数组合。李老师还是老观点:关于参数优化,找到参数高原图,或者说热图之后,不要去赌某个参数,而是去分散参数。因为后期实战中,你会发现参数漂移。


下午课程


《全市场全周期全品种全通用多元化的全智能》 陈海龙


首先提出几个问题,大家心里要有自己的答案,然后带着问题听讲。


1、你交易多少个品种??#21892;?#22810;少只?
2、赚钱主要是依靠趋势,还是震荡?
3、历史数据写出来的有没有用?失效,改进,失效,再改进,有没有用?
4、期货和?#21892;?#20027;要依靠什么在赚钱?
5、补?#21482;?#32773;抄底行为,是对还是错?
6、如何判断程序是否失效?
7、趋势和震荡,能否判断?

8、1万亿以上资金容量的模型是否存在?


我会给大家全新的思路,不是书本上能够看到的,我只生产永动机,不是永动机我还不用。


我写过4000多个模型,很多用历史数学写的,改的很痛苦。都进入垃圾桶了。我实盘用的只有一个程序。


我的模型,全市场、全品种、全周期都通用。


我的团队,把所有不可能的变成可能。但是所有的可能,又变成不可能。很多风险(万一)全部?#23478;?#21464;成不可能。我们设?#24179;?#26131;系统的时候,只有一万,没有万一。


我认为,根据历史数据训练出的模型,是没用的。历史根?#38745;?#21487;靠。谁告诉你加载出来的就一定有行情?万一没有呢?没有行情就是死路。


我们不用历史,而是用概率。?#28909;?#26126;天新上一个品种,我就可以做。而很多机构,必须等待非常多的历史数据,才可以做。


?#26131;?#30340;是全品种,任?#25105;?#20010;单品种和我没关系。我看文化商品指数,就知道怎么回事。震荡我就亏钱,趋势我就赚钱。我的一个朋友,40多天震荡都在赚钱,是震荡策略,还有所谓的纪律,但是遇到大的单边行情,他开始逆势加仓。这就是人,关键时刻会由于人?#21592;?#28291;,没有纪律。最终爆仓了。而做趋?#39057;?#20154;,这短时间,都是小亏,赚的时候都是大赚,绝对不会爆仓。


这里牵扯到一个问题:趋势和震荡市可以判?#31995;摹?/span>


另外,我是只做日内为主的,绝对的日内交易为主,隔夜都是没有仓位,或者很低仓位。


很多东西都是一环扣一环的,判断趋势和震荡,就能赚钱。另外固定品种,这就是个错误。我们的系?#24120;?#20107;实扫描所有品种,这个品种没行情,你根本赚不到。


那我们到底是靠什么在赚钱?是仓位管理。有行情重?#37073;?#27809;行情轻?#37073;?#20160;么买卖点都行。你研究历史写出来的,训练出来的模型,有意义吗?


大部分?#25628;?#20013;的模型,就是一个多个模型,然后自动下单。我看着就是个下单工具,根本就不是程序化。


我们的系?#24120;?#20080;卖点很弱,资金管理很强,这意味着,我们的容量可以超级大。我们公司的整个系?#24120;?#21487;以容纳1.2万个亿。我可以把华尔街很多人干掉,他们已经做了几十年投资,他们相对于我输在哪里,就是输在仓位管理。


2015年,2016年,震荡的时间达到90%,程序化大部分都死了。


我要知道每个账户的总资金,还要知道系?#31216;?#20272;后能承受的亏损额。


我们在90%的时间,账户里,只有1成仓位不到。59个合约,哪个最有机会的,我才略大一些交易手术。一旦来行情,我的账户就是50%甚至满仓。但是加仓是有前提的,亏钱是不能加仓的,盈利才能加仓。


我可以明确告诉你们,所有补仓的人都是亏的,追涨杀跌是对的还是错的?答案是对的。涨停板策略,也是对的。而所有逆势策略,抄底,摸顶,都是危险的。我们的账户,达到亏损限制了,直接?#22330;?/span>


如何判断程序失效还是不失效??#28909;?#32929;指5?#31181;?#27169;型,我让你测试4?#31181;櫻??#31181;櫻?#30333;银,橡?#28023;?#25105;就是不测试你股指5?#31181;印?#25105;就是要?#24049;?#31243;序的通用性。历史数据是结果,你知道了结果,再去写程序,写出来的程序,那必然是很好的效果。但是有价值吗?


我是一个做概率的人,做的越多,概率越准确。我可以告诉各位,做13个品种以下,都是赔钱的。我玩?#24597;视?#25103;的胜率可以达到70%,?#30475;?#25276;注,我在各品种都押注。就和做期货一样,全品种覆盖。我用仓位去管理这个东西,哪个轻,哪个重,亏的时候,亏的小,赚的时候,绝对要大赚。盈亏比要非常高,才能在市场上生存下去,最后就是一直赚钱。


财经栏目、波浪理论、缠论、江恩理论,这些东西都是狗屁。


通过现场讲解的饼图,可以看到波动性仓位管理。


我选择品种,只看成交量、持仓量大的品种,如果控制不好滑点,特别是?#22266;刻?#30719;,一定会亏钱。另外我不赞成选股指,特别是现在,复利效果是很慢的。加仓很少的。


我的单均线模型,都在赚钱,这能失效吗。必须有仓位管理。?#28909;?#29992;8成仓位开螺纹,2009年到现在,均线模型,1万元本金开始,30亿。


?#40644;?#39640;低点的时候,可以认为是趋势来了,重仓。正常做趋?#39057;模?#26356;容易做的就是?#40644;啤?#36861;涨杀跌,低卖高买。判断趋势之后,还要判断趋势大小。我有一套方法,识别品种、方向、仓位、趋势和震荡。很多人用一生精力研究买卖点。我不仅能判断趋势,才能判断趋势力量


所有时间,都是静态的,凝固的,而行情是连续性的。要提醒大家的是,我们做的是概率,?#28909;?#35828;盘中的概率是80%,盘后的概率是70%,我这里的表格,就是一张概率表。


我会用到很多过滤技术,一个单均线系?#24120;?#32988;率从不过滤的25%,到56%。我现在的模型,无周期,无均线,无指标。如果大?#26131;?#38663;荡,要记?#30431;?#19981;是赚钱的,它就是趋势策略亏钱的时候,用来弥补的。


白糖、股指、?#24179;穡?#25105;的一个模型,都可以做出比较好的资金曲线,一个程序,各位看清了。?#26131;?#25152;有品种赚钱的原因,是我区分趋势和震荡,趋势行情来了,所有的模?#25237;?#33021;赚钱。


开盘20?#31181;?#20869;,都不做,或者仓位很轻。


下面说说过滤方法,可以参考:


大级别(跨级别)均线过滤(也可以理解为单向过滤):我不用跨周期调用,而是设置一个大周期均线,用的是换算方法。
幅度过滤:好像没说明细
指数过滤:?#28909;?#35910;油、棕榈、菜籽油,做成一个篮子数据,然后去过滤
时间过滤:开盘某些时间,不交易。
大权重指数过滤:主力合约过滤非主力合约。
智能过滤

滑点过滤:计算好买卖点,我用挂单方式,我会多挂一个点。


我容纳一万亿资金,用多个方法:
1、全品种分散,我会选择其他国家市场
2、指数基金,和外盘新华富时A50
3、信号是?#24597;史?#20986;的,买卖点是不重要的,但是基本上每个买卖点时间上是不同的,基本上都能错开

4、滑点控制:通过控?#24179;?#26131;频率、提高网络速度,?#24067;?#35774;备。阿里云是共享资源,速度慢,不安全,交易所直连是一种方法。


从交割单可以看出,策略基本上是在tick级别数据运行,开仓持仓时间非常短。


谈到补?#37073;?#20877;次说明,我们是不补仓的,我设置好止损,到了肯定会走。不补仓的原因是,如果开始下跌了,下跌会更加严重,补仓方法是逆?#39057;摹?/span>


我描述我的产品?#25022;?#20803;化、多周期、多策略、多市场。组合的越多,越平滑。我的目标是全智能,我们是一个全智能的下单系?#24120;?#36164;金、仓位、亏损、风险增速、收益增速。后两个值和资金权益相关。我计算出今天收益可能?#38498;?#39640;的时候,我下很大的仓位,设置比较宽的止损。


资金管理30%,仓位管理更多,选品种25%,择时交易系统20%,滑点控制15%,心态管理是最小的。因为量化有刚性的风控系?#24120;?#20854;要求是很?#31995;模?#22914;果加的仓位,经常会平掉,和我系统同方向的,先留着观察,反的立刻平掉。


用系统防止有人来干预,风控系统的权限是最高的,可以随时控?#21697;?#38505;(仓位)。我们管理1600多个账号,就是这样管理的。


通过我的买卖点可以看出,我就是过滤震荡,做趋势。只要趋势来,所有的反向运行都是反弹而已,趋势形成,很难反转。


大道?#33391;頡?#30001;简到繁。这是课间交流时候讲的,希望大家记忆。


仓位分配:保证金同比例分配,震荡趋?#21697;?#37197;。我的仓位下单的时候,是实?#22791;?#21033;的,这一秒赚的1万,下一秒我就要用上。


回答问题中:


有以下重要内容:


我只有1成仓位90%时间,大行情来,会快速加仓
日内高频+日内趋势,是交易择时模型的总体描述
趋势级别,和运动速度有直接关系,我只是说这条路是通的

目前我一个品种一天,只交易1-2次,频率不高了


晚间课程 一


《对冲套利——稳健盈利模式的?#25945;幀貳?#29579;一博


主持人说?#21644;?#32769;师是巨大的专家,好(我是说巨大这个?#35270;?#30340;牛逼),今晚的两节课鏖战开始。


王老师很谦虚地说,大家参加学习,我们也是自?#26131;?#32467;提高。期货市场任?#25105;?#20010;你性格的优点,都会10倍回报你。我主要是做套利,半年时间,我就转?#25945;?#21033;。对于一个交易者,对一个个人、家庭、公司,是最为重要的。


我们从2012年成立到2016年,资产管理规模有50亿元。


趋?#24179;?#26131;,基本上是一战成名。但是他的缺点是,一年或者?#25913;輳?0~80%时间里,都是震荡,这个时间点,趋势没有走出来,是非常考验交易者资金管理和操作心里的。


但是,有?#21482;?#21644;贸易背景的团队个人,在趋?#24179;?#26131;中,?#23545;?#32988;于个人投资者。且优秀交易者,凤毛麟角。观察了别人,结合自己的性格,我选择了套利交易,这是一个日久生辉,复利增长的交易模式。这?#25913;?#22871;利模式的公司,资金规模都在快速放大,所以大家需要仔?#21018;?#36873;。


王老师展示了自己的一个产品。赚钱的交易模式,有时候是很简答的,不要把赚钱想得很复杂。2005年上了IC和IH,这是套利的盛宴,IC和IH自己的跨期,和IC-IH跨品种套利,都是非常好的机会。后来股指受限,流动?#36234;?#20302;,我们就走的慢了。去年我们100%收益,在套利方面,但是我知道,这不是常态。今年到现在,我半年的收益也就6%,我接受这个收益率。


?#28909;?#35910;油、豆粕套利,这是一个大级别的宏观经济机会。无论是个人,公司,都需要抓住机会,机会来的时候,全力以赴。没有风的时候,我们也要站在风口等风来。凯丰600万到4000万,就是抓住这个机会。


套利领域也有失败的案例,2010年,棉花起涨,内盘带动外盘,内外盘有2000点利润(价差)。?#31508;?#19978;海一家公司买入纽?#27982;蓿?#21334;出国内棉。后来价差竟然拉倒4000点,加仓一次,浮亏加?#37073;?#36825;种回归机会,4000点难遇。后来价差拉倒6000点的时候,扛不住了,棉花冲击33000,砍仓了。这就是做套利交易,不要刻舟求剑,很多条件已经不具备了。


07~08年的时候,只做少数品种,收益不错,第一桶金。2010年,PTA,RU跨期,2012年,?#22266;?#28966;煤。?#31508;?#39640;波动率,不用太深入研究,现在是低波动率,必须精细化操作。人无完人,我们要找到自己适合的,符合自己的交易模式。


我们是在交易行情吗?#35838;?#20204;是在交易自己的资金曲线,我们要控制资金向上,低回撤。在某些特殊时段,我们要集中全部火力在一些品种上,大胆做,带来资金曲线的大幅度提升。


说到软件,目前文化财经WH4,达钱,TB,2006年我一直用易盛交易软件,有非常多的好处。


股指的收敛是很好的,在贴水情况下,买近空远,是没有资金能够操纵的。


大豆提油套利,买大豆,卖出豆油豆?#21892;?#36135;。在大豆1号上,有一段时间,炒作非转基因大豆,豆粕猛跌,大豆猛涨,价差迅速拉大。?#31508;?#20111;了150个点,迅速平仓了。?#31508;?#20063;是因为急躁,使用了较大仓位。


在一点就是要选对对?#37073;热?#27833;脂,产业机构已经非常成熟了,难以套利了。很多品种留给投机者的空间,是在压缩的,因为产业?#31361;?#24050;经开始在这里获取利润。


需要说明的是:历史规律不会简单重复。人的天然的惯性?#22025;?#26159;回忆历史,但是并不是这样。我的套利策略,是产?#24503;?#36753;分析套利机会,而不是统计套利。


目前阶段,我认为商品里,黑色套利还是不错的。螺纹、热卷、?#22266;俊?#28966;煤、动力煤跨期跨品种套利还是不错的。钢厂没有什么科技含量,是一个产业链,最重要的核心,是螺纹钢和铁矿石的利润,没有高科技,高利润是周期性的,是不可维持的。螺纹铁矿比价在6,钢厂利润很好。钢厂利润好,加大铁矿石采购量,能复产的?#23478;?#22797;产。


笔记到此突然中断一下,昨天有读者说,量化行业没有女生参与,气场不协调啊。其实是有的,我们今天在会场终于找到一位很甜美的,刚毕业的金融专业?#20572;汀?/span>


?#29275;?#36825;就是今天标题里所说的峰回路转,谁说没有女生的,看来量化这个行业,还是孕育着希望的。由于此照片分散?#21496;?#21147;(改善了量化行业生态环?#24120;?#26412;节课后面的笔记无法完成记录……


晚间课程 二


《深度学习(deep learning)方法在量化投资实战当中的应用》 郑玉峰


郑老师本科大?#27169;?2岁,目前管理3亿元人民?#26131;?#37329;,其策略早已在更多更大的?#20351;?#20844;司使用。他使用了很多前沿的科技,?#28909;?#26426;器学习算法,大量融入到量化中。


他讲公司发展称作一群量化革命者的自述,我们是一个团队在作战,这就是全天候量化科技团队发起成立的?#36866;隆?012年团队在西安成立,是一只90后团队。我们去年在?#26412;?#21457;行第一只公开管理计划,?#31508;?1岁,?#25216;?#36164;金管理3000万。


2014年我们从30万元管理规模,到年底2000多万,2015年底搬到杭州,再搬到?#26412;?/span>


目前数据抓取技术,在?#26412;?#22320;改变量化的生态。一家科技公司,根据京东数据,构建了一个消费品指数,构建了因子库。然后以此为基础,构建了一个多因?#21451;?#32929;模型。这个模型的结果还是比较不错的,从2014年-2016年,这个收益率的alpha非常高,实现了250%。


这说明了一个什么问题?很多人把个性化的,非结构化的,非公开的数据,应用到量化投资体系里。


我想说的是:有效信息的提取,?#20174;?#21040;量化中,超额信息就是超额收益的重要来源。超额信息比模型的构建方法,研究方法,更重要。?#28909;?#35828;徐翔,每年200%的回报率,他的优势就是大量的内幕信息,他获取了普通人无法获知的信息。


我们普通人应该怎么办?#35838;?#20204;应该合理合法地获取信息,在此基础上,建模分析,成为稳定超额收益的来源。我们在构建量化模型过程中,是这个思路。


有一个很火的国外对冲基金公司,使用了VHF跟踪全球市场的船只形成,购买了卫?#29301;?#26469;监控大型货轮是否按时到达港口,这是在获取数据,数据爆发增长,如何科学的挖掘,如何科学有效有?#35760;?#22320;抓取,是我们量化投资者的分析研究课题。还是老话:超额信息,有决定性的作用。


我们认为:?#21892;笔?#22330;,尤其是中国的?#21892;笔?#22330;,是非常复杂的非线性系?#24120;?#26377;显?#38498;?#38544;?#25105;?#32032;。隐?#25105;?#32032;,本质上大众可以获取,但是获取的难度大,门槛高。


大家应该了解随机漫步游走理论,认为?#21892;笔?#23436;全随机的,没有规律。所以造就了ETF和共同基金比较多,但是我觉得这种理论是非常愚蠢的。我们肉眼都可以看到,市场上有相?#31508;?#37327;的,能够跑赢市场的人,长期、稳定、?#23545;?#36305;赢市场。


中国的金融市场(特指?#21892;保?#26159;成熟度非常低,容量大,机会超级多的市场,明显的是波动?#21490;?#24120;高,相比于国外,波动率不止大了两三倍。?#21892;?#20132;易量基本1个亿保底,大的都是几十亿。我们A股每天的流动性,是非常巨大的。我们的市场介于确定?#38498;?#38750;确定性的动力系?#22330;?/span>


?#21892;?#20215;格,行情数据,非行情数据,在未来预测?#21892;?#20215;格信息。有一个函数关系,是成立的。T+1天的?#21892;?#20215;格,是T天的价格,和行情?#28982;?#26412;面的因素共同决定的。量化的建模,就是通过现有的训练数据,通过实战方法,无限?#24179;?#20989;数F,也就是构造函数。但是大多数我们做出来的F,只在样本内有效,或者有效性非常短。


我们认为传统线性量化模型,都是针对训练样本,做加权求和做择时和预测,这是原始不科学的,需要有新的?#22025;?#21644;血液进来。


我们注意到:随着?#24067;?#30340;飞速发展,价格下降,我们普通人也可以拥有性能比较好的计算机,这给我们做量化投资一个好的条件,我们可以把传统计算机行业的数据处理方法,应用到?#21892;?#20215;格中,ANN SVM 小波等等。


机器学习是什么?它是建立一个模拟人脑建立一个分析学习的神经网络,解决数据问题,这种方法,其实是能够很好地应用到金融建模。数据大,维度多,成分复杂,这个方法非常好。可以无限?#24179;?#37329;融市场的真实函数F。


我想提醒大家一点,机器学习很火,都在推,尤其是DP深度学习,但是目前机器学习应用到实际场景,是比较?#35757;摹?#24456;多说法,都是很扯淡的,我们的观点是:机器学习要应用到实际量化投资:你得有数据,你得有数据,你得有数据。


机器学习,不仅对数据质量要求高,数据的有效信息多,数据预处理细致合理,国内大学的计算机专业,都有这个研究方向,但是水平不?#30431;擔?#26497;少数的人,深刻掌握理解机器学习方法。我们有过惨痛的教训,我们走了很多的坑。我们去年到?#26412;?#30340;时候,做了一个实验室。4个博士,8个硕士,10个本科,国内比较好的学校都招了,结果比较惨,最终根据数据做优良结果的,样本外检验的,只有2个人。需要深刻理解,才可以做出来。


机器学习有一个很重要的概念:经验的反馈,这个概念很重要。人类与生俱来的的,从生活和实践中,通过对已经发生的事实观测,归纳总结。机器学习也是这个过程,模拟人类。一个叫做样本外推广能力,是核心的,致命的问题。只要训?#32933;?#38388;长,一般都是拟合度高的,但是如果你过优化了,样本外数据,是需要质疑的,这太常见了,这是最大的坑。


我用了Adaboost算法,多个训练分类器的方法做示意。就像多个评委打分,我们需要评价?#21892;?#22909;坏,我们需要建立标准体系。多个评价体系,构成终极分类器。?#28909;?#26377;2700多个?#21892;保?#25105;们需要机器学习模型做评级、评分。我们要找到相?#38498;?#30340;东西,基于这个思路,我们要学习出分类器,最终用这个分类器,去评价所有?#21892;薄?#24403;模型有效,评价体系得分在前面的?#21892;保?#39044;期收益是比较高的,这就是这个策略的思路。


我们看来量化投资有五个模块:


1、收集数据、收集各种原始数据,这是5个模块中,最重要的,这是70%左右重要的。
2、数据预处理,对原始数据进行加工。?#28909;縟笔?#20540;,?#28909;?#19981;需要的数据去除,这是一个非常复杂的工作。这样才能保证数据的可学习性。
3、训练算法,用10年整体长度,随机抽取时间段,做样本内交叉验证数据(训练集)
4、样本外测试,基于之前的成果,测试算法的工作效果。我们样本外数据会留20%,我们对过拟合比较敏?#23567;?/span>

5、实盘测试,实盘也需要三个月左右数据,没有明显衰减,使用这个模型。


第一部分是我们引以为傲的,我们做了一个事,依托复杂算法,?#38498;?#37327;舆情数据,财经新闻、社交网站、上市公司公告,多层次语义匹配,形成知识图?#20303;?#21487;以提取关键词,匹配版块,个股,最终形成一张网,这是知识图?#20303;?#36825;是策略最基本的策略框架。


以一个上市公司图谱,它产生了很多标签,信息,各种好听的名?#25351;?#24565;。公告中,可以分析到被机构表扬还是出发。还有定增的协议,子公司诉?#31995;取?#36824;有产品标签,?#28909;?#26032;能源汽车。还有股东标签,没那么重要了。


我们用基本面数据,是做反向排除工作。A股比较奇葩,基本面信息,是可以找到比较坏的?#21892;保?#25490;除掉它。我们的优势,就是在新闻数据分析方面,做数据清洗、网络训练。


我们用了一个比较新的技术,大部分是关键字分析阶段,但是只是这样分析,误差比较大的。当网络出现某一个关键字的时候,是积极的?#32943;?#26497;的?#31354;?#21521;的?反向的?#35838;?#20204;用了一种技术,做这个结论的产生。以股民对万科的评价为例,有一个?#22025;?#24773;绪的结果。


最终形成了数据链,数据图谱,形成了最基础的数据。目标函数是:保证拓展能力的情况下(也就是样本外外推),对训练数据做处理,这个Y最大。这是我们的训练目标。


最终我们形成打分体系的时候,肯定是很多因子,连接在?#40644;稹?#39318;先是构建因子库,作为训练参数的材料,我们采用的是多因?#21451;?#32929;的投资方法,我们将其抽象成一个二元分类问题:强势股(前10%)、弱势股(其他的)。构建能够解释收益率高低差异的因子。


数据分为样本内训练,样本外检验,要得到样本内优秀的因子集合,参数集合。外推检验证明合格。从因?#21451;?#32929;角度来说,运算过程中,大概是先做样本划分,给样本给权重。对因?#24433;?#29031;大小进行排序,分组,然后分别计算每个分组中,强势股和弱势股的比重,我们以此方式,要检验因子的对于?#21892;?#28072;跌的解释能力。


我们可以从大量复杂的因子库里,初?#25945;?#21462;有效因子。一个弱分类器就完成了。


然后进行算法训练,我讲过Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。


如果迭代的分类器有效,做回测的时候,是比较稳健的。错误率为0不可信,难以实现的。?#28909;?#25105;们看到一个因子,?#23545;?#36305;输大盘,收益率差,比?#31995;汀?/span>


我们先淘汰无效因子,然后留下有效的,反复训练迭代,最终可以构建更强的因子组合。不同有效性因子组合积累到一定量,就会产生质的飞跃。我们在做模型的交易,暂时不考虑回撤的控制,如果测试的回撤小,实际中不会给你任何的保障。我们寻找的是超额收益,和超额收益的稳定性。


关于时间窗口?#24179;?#24314;模测试,我们加了时间窗口,测试得到不稳定。所以就一次性把数据分为样本内、样本外即可。


机器学习量化投资中,我们看中的,是:


1、注重数据采集收集,我们的理念就是超额信息,产生超额收益。
2、一脉相承的,个性化数据方面,很下功夫。我们最宝贵的,就是很早开始积攒构建的舆情数据库。

3、这部分没有记录到……


舆情数字地形图,经过几层处理后,最终留下的东西:


从0到2400左右,2400个?#21892;?#30340;信息量,纵轴是信息强度。
机器学习还有一个优势是,能够大规模地,批量地生产策略。它可以帮助公司快速拓展投资容量和规模。
1、少数派?#22025;?#36208;在大众?#22025;?#30340;反方向。少数人能够赢,避免大众化?#22025;?/span>

2、不与狼群争草原,守住自己的树林。自己的水平、团队能力,还有就是对手是谁。如果对手太强,?#28909;?#26399;货市场,就避免这些成熟度比较高的市场,?#39029;?#29087;度低的市场。


我对未来发展趋?#39057;?#19968;些看法:
1、方法趋同化。我会用机器学习,你也会,大家都会。
2、数据差异化。数据的差异化,是决定成败的来源,基础数据做的好,正则化提炼清洗好,就有超额信息优势。

3、量化建模的模型是否有效,能否赚钱,不是用研究方法和挖掘方法决定的,最终是数据质量决定的。如果信息有效性低,不可能挖掘出好的策略,只有包含的有效信息多,足,才是战胜大盘,产生超额收益的最终来源。


未来专业化分工
1、基本的模式验证,需要人来做——策略模式研究员

2、最优参数调节,批量生产——数据挖掘专家


我的提问:


小波?#20063;?#25968;据怎么办?lowess等方式呢?

——需要用到?#20063;?#25968;据的,都不能用。可能实验过程中可以用,但是实战过程中,貌似不好用。我提出回归出后几个数据,郑老师没有直接解答是否可以


我听您的意思,价格信息,并不是主要了,是这样吗?

——是的,舆情数据很重要。价格数据也是需要的。


最终负责决策的因子,是能够解释的清晰明确的因子,还是合成的因子,不容易解释的?

——都是一些合成因子。郑老师对因子有效性(也就是对于价格的解释能力)很有信心。


舆情数据,基本上?#23478;?#21453;着用的(因子强度和语义度,对价格起到反作用力)。
——舆情是韭菜的观点,不解释了……
上?#40644;?/a>下?#40644;?/a>
安全?#29616;?/span>
声明:本站只提供软件使用和用户交流服务,所有用户观点不代表宽潮教育认同。本站禁止推销、非法理财、私下收?#35757;?#34892;为、请用户甄别。投资有风险,入市请谨慎!
幸运飞艇彩票开奖网站 麻将游戏下载手机版 高频彩要拉人,什么原因 单机斗地主老版本免费 500元 倍投方案 稳赚 微博上回收手机如何赚钱 52开奖网pk10直播 教师靠微信赚钱 白姐最准2o期24码 江苏快3网上怎么投注 苹果手机专卖网站