R²(决定系数)在组合算法评价中的含义
一个方程说清本质:把组合收益拆成两部分
R² = 基准/因子能解释的部分 ÷ 总收益波动
- R² → 1(接近100%):组合几乎完全跟着基准走,差异≈噪音
- R² → 0(接近0%):组合收益和基准(或因子模型)几乎无关,全是主动决策的结果
三种具体场景
1. 基准回归 —— 最常见的用法
把组合日收益率对基准指数(如沪深300)做线性回归:
| R² 范围 | 含义 | 示例 |
|---|---|---|
| > 90% | 指数跟踪/复制,几乎无主动管理 | 指数增强但R²>0.95,其实还是基本跟着指数走 |
| 70%~90% | 主动管理但有明显基准导向 | 大多数主动基金在此区间 |
| < 70% | 高度主动偏离基准 | 量化对冲、灵活配置、多资产组合 |
公式:R² = 1 - SSE/SST = 回归平方和/总平方和
2. 因子模型归因 —— 看你赚的是能力还是运气
把组合收益对多因子(市场/市值/价值/动量等)回归:
组合收益 = b₁×市场因子 + b₂×规模因子 + ... + α(超额收益) + ε(残差)
↕
R² = 这些因子共同解释了多少
- 高 R²(>85%):组合收益基本由因子暴露解释,α 很小→你的组合本质就是"买了这些因子"
- 低 R²(<60%):收益中有大量因子无法解释的部分→要么α能力强,要么运气/噪音大(需要看α的t统计量来区分)
3. 组合算法场景 —— 看算法和管理人的区别
管理人A的R² = 0.95 → 收益几乎100%由因子决定,谁来做都一样
管理人B的R² = 0.40 → 收益大部分来自非因子部分(主动判断/择时),
需要判断这是真α还是运气
对评价的意义:
- R² ≈ 1 + 夏普高:组合一直在做同一件事且做得好→可复制的策略
- R² ≈ 0.3 + 夏普高:可能有超出因子的Alpha,但需要更多样本来证实不是过拟合
- R² ≤ 0.1 + 夏普也低:纯粹噪音乐队,没有策略可言
和夏普的配合解读
| 情况 | R² | 夏普 | 解读 |
|---|---|---|---|
| A | 高 | 高 | 策略逻辑清晰(大量仓位押对了因子),可持续 |
| B | 低 | 高 | 高收益来源不清晰→可能过拟合或运气→要警惕 |
| C | 高 | 低 | 策略逻辑清晰但因子本身不行→换因子就行 |
| D | 低 | 低 | 既没逻辑也没结果→策略需要根本重构 |
B 是最危险的——看起来夏普诱人,但 R² 告诉你收益缺乏可解释性,未来重复概率低。