R²（决定系数）在组合算法评价中的含义

R²（决定系数）在组合算法评价中的含义

一个方程说清本质：把组合收益拆成两部分

R² = 基准/因子能解释的部分 ÷ 总收益波动

R² → 1（接近100%）：组合几乎完全跟着基准走，差异≈噪音
R² → 0（接近0%）：组合收益和基准（或因子模型）几乎无关，全是主动决策的结果

三种具体场景

1. 基准回归 —— 最常见的用法

把组合日收益率对基准指数（如沪深300）做线性回归：

R² 范围	含义	示例
> 90%	指数跟踪/复制，几乎无主动管理	指数增强但R²>0.95，其实还是基本跟着指数走
70%~90%	主动管理但有明显基准导向	大多数主动基金在此区间
< 70%	高度主动偏离基准	量化对冲、灵活配置、多资产组合

公式：R² = 1 - SSE/SST = 回归平方和/总平方和

2. 因子模型归因 —— 看你赚的是能力还是运气

把组合收益对多因子（市场/市值/价值/动量等）回归：

组合收益 = b₁×市场因子 + b₂×规模因子 + ... + α(超额收益) + ε(残差)
               ↕
            R² = 这些因子共同解释了多少

高 R²（>85%）：组合收益基本由因子暴露解释，α 很小→你的组合本质就是"买了这些因子"
低 R²（<60%）：收益中有大量因子无法解释的部分→要么α能力强，要么运气/噪音大（需要看α的t统计量来区分）

3. 组合算法场景 —— 看算法和管理人的区别

管理人A的R² = 0.95  →  收益几乎100%由因子决定，谁来做都一样
管理人B的R² = 0.40  →  收益大部分来自非因子部分（主动判断/择时），
                        需要判断这是真α还是运气

对评价的意义：

R² ≈ 1 + 夏普高：组合一直在做同一件事且做得好→可复制的策略
R² ≈ 0.3 + 夏普高：可能有超出因子的Alpha，但需要更多样本来证实不是过拟合
R² ≤ 0.1 + 夏普也低：纯粹噪音乐队，没有策略可言

和夏普的配合解读

情况	R²	夏普	解读
A	高	高	策略逻辑清晰（大量仓位押对了因子），可持续
B	低	高	高收益来源不清晰→可能过拟合或运气→要警惕
C	高	低	策略逻辑清晰但因子本身不行→换因子就行
D	低	低	既没逻辑也没结果→策略需要根本重构

B 是最危险的——看起来夏普诱人，但 R² 告诉你收益缺乏可解释性，未来重复概率低。