单因子有效性检验

 

对冲基金丛书|对冲基金经理培训|智能金融|投资能力评选|财富管家|京晋宽客聚会|投资心理学|合作论坛...





私募工场:投资能力孵化平台

本报告探讨如何找到有逻辑意义并且能够有效的区分个股的因子,且因子值对于个股未来收益有一定的预测能力;用数学的语言描述就是如何检验单因子和收益率之间是否有相关性。

我们对因子的检验基于两个维度:

1、计算同一时刻的个股的指标值和未来一段时间(通常为一个月)收益的相关性,也就是IC值(信息系数)。

2、按照指标值大小对股票进行分组,从时间序列的角度观察各组的历史累计收益、信息比率、最大回撤以及胜率等。各组表现的优势组的胜率越高,单调性越强,说明指标的区分能力和选股能力越强。

检验方法的几点思考和改进

最小二乘法(OLS regress) vs. 稳健回归(Robust Regress)

最小二乘法

为了得到回归系数值,最常用的方法是采用最小二乘法(ordinary least

squares,简记OLS)进行参数拟合。传统的最小二乘法方便估计出一个线性回归系数,但其目标函数并不是一个稳健的统计量,容易受到异常样本值的影响。

因为最小二乘法要求误差项相互独立、服从正态分布、以零为数学期望并有相同方差的随机变量。当实际的观测值包含异常值时,误差将不再服从正态分布,而是重尾分布(long-tailed distribution)。对这样的数据作回归分析时,回归直线将是主体数据与异常值之间的一个妥协,而与真实的回归线相差较远。

稳健回归法

在多因子模型中,一些选股因子很可能会出现一些异常值,而这些异常值会对回归的模型参数产生较大影响。为了降低异常值的影响,我们可以使用加权最小二乘法(稳健回归)估计模型。稳健回归的主要思路是将对异常值十分敏感的经典最小二乘回归中的目标函数进行修改;例如,剔除一些异常值,或者降低其在目标函数中的权重。

稳健回归就能够克服最小二乘回归因异常值而失真的缺陷,得出更为接近实际值的估计。以2011-12-30的stockpjcj5-60指标为例,与最小二乘法相比,稳健回归受到个别奇异值的影响较小。如果用t检验,稳健回归收到奇异值的影响较小,其回归系数显著小于0,而OLS回归系数变得不显著。



整体回归 vs. 按月度回归

每个月都有一组指标数据以及对应的未来收益率数据;以往有的研究会将几年的数据放在一起,整体进行回归,但我们更建议每月进行一次回归,按月回归的好处有两个:

1、减少单次回归的样本数量。

从下图可看出,当设定好一个显著水平后(如0.05),样本量越大,拒绝原假设所需的相关系数越小,因此,样本量如果过大,指标很容易通过显著性检验,不利于对指标的优劣进行判断。



2、有利于观察指标的历史表现。

数据放在一起做总体回归虽可以得到指标整体的历史规律,但市场不会长期保持一种风格,整体IC忽略了很多重要的信息,而通过计算月度IC,我们可以了解以下信息:

正相关月份的具体比例

负相关月份的具体比例

因子的持续周期和反转频率

指标值回归 vs. 秩相关系数

在对指标值进行稳健回归的基础上,我们还引入秩相关系数去检验指标与收益之间的相关性,这是因为指标与收益之间往往并不是线性相关的,而使用Pearson线性相关系数需要满足两个假设:

1、数据是成对地从正态分布中取得的;

2、数据至少在逻辑范畴内必须是等间距的数据。

如果这两条件不符合,一种选择就是采用Spearman秩相关系数来代替Pearson线性相关系数。

秩相关系数是一个非参数性质(与分布无关)的秩统计参数,由Spearman在1904年提出,用来度量两个变量之间联系的强弱。秩相关系数又称顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。

不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加的函数关系,变量之间的秩相关系数就是1(下图),相同情况下,Pearson相关性在变量不是线性函数关系时,并不是完全相关的。



当秩相关系数显著时,可以结合组合的历史超额收益、信息比率等信息,综合判断指标对于股票收益的区分度。

按照指标排序全市场分组vs. 行业内分组

有一些基本面因子,如PB、资产周转率、市值等,不同行业间有着天然的差异,可能不具有可比性,而且如果全市场分组,可能存在行业的显著偏离,因此全市场分组有效与指标在行业中性的情况下有效不是等同的概念。

我们在对因子的考察中,同时采用了行业内(申万1级)分组和全市场分组两种方式进行对比,发现有的指标在行业内分组的效果更好,而有的指标更适合于直接在全市场进行排序。

同向显著比例 vs. 状态切换比例

指标值每个月都可以与次月收益率之间算出一个回归系数,当回归系数显著的比例较高时,我们就认为该因子对与股票走势有一定的解释度。

一般而言,市场的风格不是一层不变的,而是轮动的。换言之,因子与收益率的回归系数会在正负之间之间切换。我们在运用因子时,有两个选择,一是计算历史正相关和负相关的比例,选取相关比例较高的一个方向作为对未来的预测;另一个方法是跟随最近的市场风格,例如采用该因子最近一次显著相关的方向作为对未来的预测,但这种方法要求因子有较强的延续性。

我们在检验结果中,同时列出正相关比例、负相关比例、同向显著比例以及状态切换比例。回归系数同向显著比例大,代表风格延续性强,越有可能在多因子模型中通过动态调整因子权重,提高胜率;而对于风格频繁切换的因子,使用静态权重可能是更好的方式。

因子综合排序结果

我们以32个常用选股因子为例,用改进后的方法做单因子检验并对因子进行了综合排序。总体而言,表现较好的因子有市值因子、反转因子、换手率指标、各类业绩增速指标和估值指标。另外、资产负债率、周转天数、ROE、ROA以及销售利润率等指标也对股价有着一定的预测性。

综合考虑因子的正负显著比例之差以及强势组收益情况,我们对因子进行评分排序如下:排序越小说明因子作为单因子选股效果越好(我们将因子排序前10名以及不同类型表现较好的因子用红色标出)。





风险提示

文中选股指标的收益基于历史数据进行统计,未来市场可能发生较大的风格转换。

量化选股的胜率不为百分之百,需进行严格的风险控制。

来源于:大宽客

国内首个期权实战精英筛选活动开启

实时解析“缠论”量化专训课程

内容合作:果果(15034081448)

商务合作:果果(15034081448)

投稿邮箱:506743560@qq.com(注明投稿)






    关注 私募工场


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册