“海量”专题(180)——日内市场微观结构与高频因子选股能力

  • 2023-04-24
  • John Dowson

“海量”专题(180)——日内市场微观结构与高频因子选股能力

  随着因子研究的深入,我们发现在计算高频因子时,若仅使用日内某段时间的数据计算因子值,能够进一步增强因子的选股效果。此外,部分高频因子往往更适合使用开盘后30分钟的数据计算,而另一部分高频因子往往更适合使用剔除开盘后30分钟的数据计算。本文对于上述现象进行了描述与讨论,并将这一现象与日内市场微观结构联系在一起

  系列前期报告使用了不同层级的高频数据构建了各类高频因子。回测结果表明,高频因子具有较为显著的月度选股能力。随着因子研究的深入,我们发现使用日内不同时段数据计算得到的因子在选股能力上存在明显差异。

  不妨将日内数据(9:30~14:56,后文简称全天)分为两个时段:9:30~9:59(后文简称为开盘后)、10:00~14:56(后文简称为剔除开盘后),并分别使用两个时段的数据计算因子值。下表对比展示了使用不同时段数据计算得到的高频因子的选股能力。(因子具体计算方法可参考前期系列专题报告。)

  观察上表不难发现,部分因子在仅使用开盘后数据计算时展现出了更强的选股能力,如,净委买占比、净主买占比、知情主卖占比、买入意愿占比以及买入意愿强度。上述因子在仅使用开盘后数据计算时,因子的月均IC以及月均多空收益皆得到了明显提升。同样可以发现,部分因子在剔除开盘后数据计算时展现出了更强的选股能力,如,委托成交相关性、高频偏度、下行波动占比等因子。

  从因子构建思路来看,以净委买占比为代表的一系列因子着重刻画了投资者的主动交易行为或者主动交易倾向。该类因子认为前期主动买入(卖出)或者买入(卖出)意愿较强的股票,未来表现更好(更差)。考虑到具有信息优势的投资者(后文简称知情交易者)的交易行为具有更强的领先性,因此可以认为该类因子实际上旨在捕捉知情交易者的交易行为,而以高频偏度为代表的一系列因子则更多刻画了投资者在交易上的过度反应。

  考虑到不同类别的高频因子从不同的角度刻画了投资者的交易行为,因此可猜测投资者在日内不同时段中的行为模式或者构成存在差异,由此影响了高频因子对于投资者行为的刻画并导致了因子选股能力的差异。基于这一猜测,可从不同角度刻画日内市场微观结构特征。

  本文将尝试从成交额占比、大单占比、分钟收益波动以及盘口买卖价差这4个角度刻画投资者交易行为在日内不同时段的特征,并结合海外相关研究推测日内特征形成的原因以及对于高频因子选股能力的影响。

  基于现有的高频数据,本章从成交额占比、大单占比、分钟收益波动以及盘口买卖价差这4个角度刻画了投资者在日内不同时段的行为特征。为了统计与展示的便利,本章在计算各指标时,将日内交易时段按照30分钟为1段,分为了8段。

  首先可使用2014年以来的分钟成交数据刻画股票在日内不同时段的成交占比。下图分别展示了全市场、中证800指数外、中证500指数内以及沪深300指数内的股票日内成交分布情况。

  总体来看,股票日内成交呈U型分布,开盘后30分钟以及收盘前30分钟的成交占比远高于日内其他时段,并且这种现象在不同的指数范围内皆存在。此外,开盘后的成交占比略高于收盘前的成交占比。

  股票日内成交的U型分布特征在海外市场同样能够被观察到。1980年以来,许多海外文献讨论了股票日内成交与波动的分布特征。Wood, McInish, Ord(1985)[1]、Admati, Anat R., Paul Pfleiderer(1988)[2]等人皆在相关文献中讨论了股票成交在日内的形态特征。相关文献发现,股票的成交在日内呈现U型分布特征,即早盘与尾盘聚集了更多的成交而盘中成交则相对较少。

  对于股票日内成交呈U型分布的原因,相关文献也进行了深入讨论。不妨以Admati, Anat R.,Paul Pfleiderer(1988)发表的《A Theory if Intrady Patterns:Volume and Price Variablility》为例。文章作者将市场中的交易者分为了知情交易者(Informed Traders)与流动易者(Liquidity Traders),而流动易者又可按照其自主性进一步分为自主流动易者(Discretionary LiquidityTraders)以及非自主流动易者(Non-Discretionary LiquidityTraders)。文章研究结果表明,只要市场中存在知情交易者,随着知情交易者的增多,自主流动易者的聚集性会越来越强。这是因为知情交易者相互之间存在竞争,而这种竞争将提升流动易者的福利(Welfare)。

  由于开盘后与收盘前处于无法交易时间的两端,这容易使得非自主流动易者聚集,由此会导致自主流动易者以及知情交易者聚集于相同时段。此外,文章认为,收盘前成交的聚集也有可能是交易所清算规则所引起的。在特定清算规则下,某些T日发生的交易会在几日后的收盘清算。虽然证券的交收取决于交易发生的日期,但是实际交易发生的日内时间并不会影响证券的交收。这也就使得许多非自主流动易者的最后交易期限为收盘。在这种情况下,流动易者会倾向于在收盘时间附近交易。(若投资者对于具体结论的推导感兴趣可阅读相应文献原文。)

  基于上述文献结论,若早尾盘聚集了更多的知情交易者,那么我们也就不难理解为何以净委买占比为代表的一系列因子在使用开盘后30分钟数据计算时具有更强的选股能力。为了能够进一步体现开盘后与收盘前时段中信息含量,可统计日内不同时段中大单的分布特征。

  在识别大单时,本文首先基于逐笔成交数据中的买卖单号将逐笔成交数据还原为买卖单数据。其次,考虑到买卖单成交额的分布特征具有极为明显的偏度,故而对于买卖单成交额进行对数处理,并基于对数单成交额的分布设定大单阈值。下图分别展示了全市场、中证800指数外、中证500指数内以及沪深300指数内的股票日内大单的分布情况。(即,各时段大单成交额占全天大单成交额的比例。)

  结合成交分布特征以及大单分布特征来看,开盘后与收盘前不仅聚集了更多的成交,也聚集了更多的大单。若认为大单更能够体现出大资金的行为,那么大单占比更高的时段具有更高的信息含量。考虑到主动交易类因子或者知情交易类因子旨在刻画知情交易者的行为,该类因子在信息含量更高的时段能够更加精准地刻画知情交易者的行为,从而带来更强的选股能力。

  若假定开盘后30分钟与收盘前30分钟同样具有较高的信息质量,且知情交易者参与较多,那么主动交易类因子或者知情交易类因子应该在使用收盘前30分钟数据计算时同样呈现出较强的选股能力,但是实际回测结果却并非如此。从下表回测结果可知,因子在使用开盘后30分钟与收盘前30分钟计算时,展现出了截然不同的选股能力。虽然两段时间同样聚集了较多的成交,但是两个时段依旧存在较为明显的差异。

  不妨进一步考察股票日内收益波动在不同时段的分布特征。考虑到不同股票的波动率水平存在差异,本节在计算得到股票各时段的收益波动后,对于波动率进行了标准化处理。下图展示了全市场、中证800指数外、中证500指数内以及沪深300指数内的股票日内收益波动的分布情况。

  观察上图可知,股票收益波动的分布与成交分布特征并不相同,整体呈现L型特征。在不同的指数范围内,股票收益波动的日内分布皆呈L型。这一现象与海外市场的观察结果并不完全一致。在海外相关文献中,股票日内收益波动与成交类似,在日内呈现出了U型特征。

  French,Roll(1986)[3]认为股票日内波动是由私有信息所造成,私有信息通过知情交易者的交易行为引起波动。因此在知情交易者聚集交易的时段中,股票会呈现出更高的波动。若基于前文讨论过的Admati, Anat R.,Paul Pfleiderer(1988)的研究结果,知情交易者更容易聚集在开盘后与收盘前交易,那么股票应该在开盘后与收盘前呈现出更高的收益波动。虽然美国市场股票日内波动呈现出了U型特征,但是国内市场却呈现出了L型特征。那么我们是否可以推测,在国内市场,开盘后聚集了更多的知情者,而收盘前的知情交易者占比却相对较低。

  基于这一推测,可进一步观察股票盘口买卖价差的日内分布特征。考虑到不同股票的流动性水平存在差异,股票盘口的买卖价差不具有可比性,本节在计算得到股票各时段的平均买卖价差后,对于买卖价差进行了标准化处理。下图展示了全市场、中证800指数外、中证500指数内以及沪深300指数内的股票日内买卖价差的分布情况。

  观察上图不难发现,在不同的指数范围内,股票日内买卖价差分布与日内收益波动分布类似,皆呈现出了L型。那么买卖价差的这种分布特征到底体现了什么呢?本文在解读买卖价差的含义时参考了Glosten, Lawrence R., LawrenceE. Harris(1988)[4]发表的《Estimating the Components of the Bid/Ask Spread》。文章作者认为买卖价差由两方面因素所产生,一部分是交易双方的信息不对称性,市场中的知情交易者越多,做市商所面对的信息不对称性越强,因此会通过买卖价差向交易对手方收取更高的交易成本。另一部分是由于库存成本、清算成本等因素所产生。文章研究结论表明,股票的买卖价差很大程度上体现出了信息不对称性。

  考虑到股票在开盘后与收盘前都具有较高的成交占比,但是开盘后的买卖价差远高于收盘前。因此可以认为股票在开盘后所呈现出的较高的买卖价差体现了股票在开盘后的交易时段中知情交易者较多,具有更强的信息不对称性,而收盘前相对较低的买卖价差则说明该段时间的知情交易者相对较少。

  由于主动交易类因子以及知情交易类因子旨在刻画具有信息优势的投资者的交易行为,该类因子在使用知情交易者占比较高的交易数据进行计算时能够更好地刻画投资者的交易行为,从而展现出更强的选股能力。此外,相比于常规交易者,知情投资者更难以出现过度反应的现象,因此以高频偏度为代表的一系列因子在使用剔除了开盘后30分钟的数据计算时具有更强的选股能力。

  前文回测结果表明,部分高频因子在使用开盘后或者收盘前数据计算时呈现出了更强的选股能力。因此,可通过调整计算因子所使用的数据范围,进一步提升相关高频因子的选股能力。

  不妨以月度调仓的中证500指数增强组合为例,在其他各方面相同的情况下,分别在模型中使用开盘后买入意愿强度以及全天买入意愿强度,并观察模型在2016年以来的收益表现。下表对比展示了两模型的收益风险情况。

  观察上表不难发现,相比于使用全天数据计算买入意愿强度,使用开盘后30分钟数据计算得到的买入意愿强度不仅在单因子上呈现出了更强的选股能力,在加入组合后同样能够为组合带来进一步的收益增强以及风险的降低。加入开盘后买入意愿强度的模型在各年中皆取得了更高的超额收益。此外,模型也在大部分年份中取得了更小的收益波动以及最大回撤。下图对比展示了两组合的净值走势。

  同样可以月度调仓的沪深300指数增强组合为例,在其他各方面相同的情况下,分别在模型中使用全天买入意愿占比以及开盘后买入意愿占比,并观察模型在2016年以来的收益表现。下表对比展示了两模型的收益风险情况。

  观察上表不难发现,相比于全天数据计算买入意愿占比因子,开盘后30分钟数据计算得到的买入意愿占比因子不仅在单因子上具有更强的选股能力,在加入组合后同样能够为组合带来进一步收益的提升。加入开盘后买入意愿占比的模型在各年中皆取得了更高的超额收益。下图对比展示了两组合的净值走势。

  通过对比,我们发现高频因子在使用日内不同时段数据进行计算时,其月度选股能力存在明显差异。根据因子内在逻辑的不同,使用不同时段数据计算得到的因子的月度选股能力也会有所不同。可根据高频因子内在逻辑将其分为两类,一类旨在刻画知情交易者的交易行为,该类因子在使用开盘后30分钟数据计算时具有更强的月度选股能力,而另一类旨在刻画投资者的过度反应,该类因子在使用剔除开盘后30分钟数据计算时的选股能力相对较强。结合海外研究成果以及国内市场微观结构特征,我们认为这一现象与不同时段的投资者构成以及高频因子内在逻辑存在较强联系。

  从日内特征来看,股票成交以及大单成交皆呈现U型分布,但是股票分钟收益波动以及盘口买卖价差呈现L型分布。结合海外相关研究成果,我们推测这种日内形态表明虽然开盘后与收盘前皆聚集了较多的成交,但是开盘后的成交中知情交易者占比更高。因此旨在刻画知情交易者行为的高频因子在使用该段时间数据计算时会具有更强的效果。此外,由于知情交易者更难出现过度反应,因此旨在刻画投资者过度反应的高频因子在剔除该段时间数据后的选股能力能得到提升。

  基于上述思路,可调整因子计算所使用的数据时段,并进一步提升因子的选股能力。在中证500指数增强组合以及沪深300指数增强组合中,相关因子的改进同样能够带来组合表现的提升。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

评论留言

发表评论