feat: 初始化量化交易知识库 v1.0
- 01_基础理论:量化交易基础概念、市场微观结构、加密货币特殊性 - 02_技术指标:完整指标体系(MA/EMA/MACD/RSI/KDJ/布林带/SuperTrend/DMI等) - 03_交易策略:趋势跟踪、均值回归、套利、动量策略详解 - 04_交易信号系统:多指标共振评分引擎(基于 tradehk 项目) - 05_市场品种:加密货币、XAUT黄金代币、代币化美股全览 - 06_数据流程:数据采集、清洗、存储、实时流处理 - 07_回测框架:回测方法论、偏差规避、绩效评估指标 - 08_风险管理:仓位管理、止损止盈、Kelly公式、杠杆管理 - 09_AI与机器学习:深度学习、强化学习、LLM在量化投资中的应用 - 10_链上数据分析:SOPR/MVRV/巨鲸监控/衍生品数据 - 11_参考文献:arXiv论文汇总、开源项目、数据平台资源 - samples/:Python信号计算器和回测样本代码 参考项目:tradehk(ssh://git@git.hk.hao.work:2222/hao/tradehk.git) 全部中文化,适用于加密货币(CEX/DEX)、XAUT黄金、代币化美股
这个提交包含在:
300
07_回测框架/回测方法论与实践.md
普通文件
300
07_回测框架/回测方法论与实践.md
普通文件
@@ -0,0 +1,300 @@
|
||||
# 回测方法论与实践
|
||||
|
||||
> 回测是量化交易策略开发中最关键的环节。本文档详细介绍回测的正确方法、常见偏差的规避技巧,以及主要绩效评估指标的计算与解读。
|
||||
|
||||
---
|
||||
|
||||
## 一、回测的核心原则
|
||||
|
||||
### 1.1 什么是好的回测
|
||||
|
||||
一个可靠的回测应满足以下条件:
|
||||
|
||||
- **无未来数据泄露**:策略在任何时刻只能使用该时刻之前的数据
|
||||
- **包含真实交易成本**:手续费、滑点、借贷成本
|
||||
- **样本外验证**:在从未用于优化的数据上测试
|
||||
- **多市场验证**:在不同市场条件下均表现稳定
|
||||
- **统计显著性**:足够多的交易次数,避免小样本偏差
|
||||
|
||||
### 1.2 回测流程
|
||||
|
||||
```
|
||||
1. 策略假设定义
|
||||
↓
|
||||
2. 历史数据准备(清洗、验证)
|
||||
↓
|
||||
3. 样本内回测(In-Sample,用于参数优化)
|
||||
↓
|
||||
4. 样本外验证(Out-of-Sample,评估真实表现)
|
||||
↓
|
||||
5. 前向测试(Walk-Forward,模拟实盘)
|
||||
↓
|
||||
6. 纸面交易(Paper Trading,实时验证)
|
||||
↓
|
||||
7. 小资金实盘(逐步增加资金)
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 二、常见回测偏差
|
||||
|
||||
### 2.1 过拟合偏差(Overfitting Bias)
|
||||
|
||||
**定义**:策略参数过度优化,在历史数据上表现完美,但在新数据上失效。
|
||||
|
||||
**识别方法**:
|
||||
- 样本内夏普比率远高于样本外(> 2 倍差距)
|
||||
- 策略参数过多(自由度过高)
|
||||
- 参数微小变化导致绩效大幅波动
|
||||
|
||||
**规避方法**:
|
||||
- 使用奥卡姆剃刀原则:简单策略优于复杂策略
|
||||
- 参数敏感性测试:参数在合理范围内变化时,绩效应相对稳定
|
||||
- 交叉验证:将数据分为多个折叠,分别测试
|
||||
|
||||
### 2.2 数据窥探偏差(Data Snooping Bias)
|
||||
|
||||
**定义**:在同一数据集上反复测试多个策略,直到找到"有效"的策略。
|
||||
|
||||
**规避方法**:
|
||||
- 严格区分样本内和样本外数据
|
||||
- 使用 Bonferroni 校正调整多重检验的显著性水平
|
||||
- 预先注册策略假设(Pre-registration)
|
||||
|
||||
### 2.3 幸存者偏差(Survivorship Bias)
|
||||
|
||||
**定义**:历史数据只包含至今仍存在的资产,已退市或破产的资产被排除。
|
||||
|
||||
**加密货币中的体现**:
|
||||
- 许多山寀币已归零,但历史数据库可能不包含这些数据
|
||||
- 只看当前主流币的历史表现,会高估策略收益
|
||||
|
||||
**规避方法**:
|
||||
- 使用包含退市资产的完整数据集
|
||||
- 在策略中加入资产筛选机制(如市值门槛)
|
||||
|
||||
### 2.4 未来数据泄露(Look-Ahead Bias)
|
||||
|
||||
**定义**:在计算指标时,使用了当时不可能获得的未来数据。
|
||||
|
||||
**常见错误**:
|
||||
```python
|
||||
# 错误示例:使用当天最高价计算信号(当天收盘前不知道最高价)
|
||||
signal = df['high'].rolling(20).max() # 错误!
|
||||
|
||||
# 正确示例:使用前一天的最高价
|
||||
signal = df['high'].shift(1).rolling(20).max() # 正确
|
||||
```
|
||||
|
||||
**tradehk 的处理**:信号在 K 线收盘后计算,下一根 K 线开盘时执行,避免了未来数据泄露。
|
||||
|
||||
### 2.5 交易成本忽略(Transaction Cost Neglect)
|
||||
|
||||
**加密货币交易成本构成**:
|
||||
|
||||
| 成本类型 | 典型值 | 说明 |
|
||||
|----------|--------|------|
|
||||
| Maker 手续费 | 0.02-0.05% | 挂限价单 |
|
||||
| Taker 手续费 | 0.04-0.1% | 吃市价单 |
|
||||
| 滑点 | 0.01-0.5% | 取决于流动性和订单大小 |
|
||||
| 资金费率 | ±0.01%/8h | 永续合约持仓成本 |
|
||||
|
||||
**回测中的处理**:
|
||||
```python
|
||||
# 建议在回测中使用略高于实际的手续费,留出安全边际
|
||||
COMMISSION_RATE = 0.001 # 0.1%(含滑点)
|
||||
|
||||
def calculate_pnl(entry_price, exit_price, side, size):
|
||||
if side == 'LONG':
|
||||
gross_pnl = (exit_price - entry_price) * size
|
||||
else:
|
||||
gross_pnl = (entry_price - exit_price) * size
|
||||
|
||||
# 扣除双边手续费
|
||||
commission = (entry_price + exit_price) * size * COMMISSION_RATE
|
||||
return gross_pnl - commission
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 三、绩效评估指标
|
||||
|
||||
### 3.1 收益类指标
|
||||
|
||||
**总收益率(Total Return)**:
|
||||
$$R_{total} = \frac{最终净值 - 初始资金}{初始资金} \times 100\%$$
|
||||
|
||||
**年化收益率(CAGR)**:
|
||||
$$CAGR = \left(\frac{最终净值}{初始资金}\right)^{\frac{1}{年数}} - 1$$
|
||||
|
||||
### 3.2 风险调整收益指标
|
||||
|
||||
**夏普比率(Sharpe Ratio)**:
|
||||
$$Sharpe = \frac{年化收益率 - 无风险利率}{年化波动率}$$
|
||||
|
||||
| 夏普比率 | 评级 |
|
||||
|----------|------|
|
||||
| < 0 | 不可接受 |
|
||||
| 0-0.5 | 较差 |
|
||||
| 0.5-1.0 | 一般 |
|
||||
| 1.0-2.0 | 良好 |
|
||||
| > 2.0 | 优秀 |
|
||||
|
||||
**索提诺比率(Sortino Ratio)**:只考虑下行波动率,更适合非对称收益分布:
|
||||
$$Sortino = \frac{年化收益率 - 无风险利率}{下行波动率}$$
|
||||
|
||||
**卡尔玛比率(Calmar Ratio)**:
|
||||
$$Calmar = \frac{年化收益率}{最大回撤}$$
|
||||
|
||||
### 3.3 风险类指标
|
||||
|
||||
**最大回撤(Maximum Drawdown)**:
|
||||
$$MDD = \max_{t \in [0,T]} \left(\frac{峰值净值 - 当前净值}{峰值净值}\right)$$
|
||||
|
||||
**回撤持续时间**:从峰值到恢复峰值所需的时间,越短越好。
|
||||
|
||||
**VaR(风险价值)**:在给定置信水平下,未来某时间段内可能发生的最大损失。
|
||||
|
||||
### 3.4 交易质量指标
|
||||
|
||||
| 指标 | 计算方法 | 目标值 |
|
||||
|------|----------|--------|
|
||||
| 胜率 | 盈利交易数 / 总交易数 | > 50%(趋势策略可低于 50%) |
|
||||
| 盈亏比 | 平均盈利 / 平均亏损 | > 1.5 |
|
||||
| 期望值 | 胜率 × 盈亏比 - (1 - 胜率) | > 0 |
|
||||
| 最大连续亏损 | 连续亏损的最大次数 | 越小越好 |
|
||||
|
||||
---
|
||||
|
||||
## 四、Python 回测框架
|
||||
|
||||
### 4.1 主流回测库对比
|
||||
|
||||
| 框架 | 特点 | 适用场景 |
|
||||
|------|------|----------|
|
||||
| Backtrader | 功能全面,文档丰富 | 股票、期货 |
|
||||
| Backtesting.py | 简洁易用,可视化好 | 快速原型 |
|
||||
| QuantConnect | 云端,支持多资产 | 专业量化 |
|
||||
| Freqtrade | 专为加密货币设计 | 加密货币 |
|
||||
| VectorBT | 向量化,速度极快 | 大规模回测 |
|
||||
|
||||
### 4.2 简单回测框架实现
|
||||
|
||||
```python
|
||||
import pandas as pd
|
||||
import numpy as np
|
||||
from dataclasses import dataclass
|
||||
from typing import List, Optional
|
||||
|
||||
@dataclass
|
||||
class Trade:
|
||||
entry_time: pd.Timestamp
|
||||
exit_time: Optional[pd.Timestamp]
|
||||
side: str # 'LONG' or 'SHORT'
|
||||
entry_price: float
|
||||
exit_price: Optional[float]
|
||||
size: float
|
||||
pnl: Optional[float] = None
|
||||
|
||||
class SimpleBacktester:
|
||||
def __init__(self, initial_capital: float = 10000, commission: float = 0.001):
|
||||
self.initial_capital = initial_capital
|
||||
self.commission = commission
|
||||
self.capital = initial_capital
|
||||
self.trades: List[Trade] = []
|
||||
self.equity_curve = []
|
||||
|
||||
def run(self, df: pd.DataFrame, signals: pd.Series) -> dict:
|
||||
"""
|
||||
df: K 线数据(含 OHLCV)
|
||||
signals: 信号序列(1=买入,-1=卖出,0=持仓)
|
||||
"""
|
||||
position = 0
|
||||
current_trade = None
|
||||
|
||||
for i, (timestamp, row) in enumerate(df.iterrows()):
|
||||
signal = signals.iloc[i]
|
||||
|
||||
# 开多仓
|
||||
if signal == 1 and position == 0:
|
||||
size = self.capital / row['close']
|
||||
cost = row['close'] * size * self.commission
|
||||
self.capital -= cost
|
||||
position = 1
|
||||
current_trade = Trade(
|
||||
entry_time=timestamp,
|
||||
exit_time=None,
|
||||
side='LONG',
|
||||
entry_price=row['close'],
|
||||
exit_price=None,
|
||||
size=size
|
||||
)
|
||||
|
||||
# 平多仓
|
||||
elif signal == -1 and position == 1:
|
||||
revenue = row['close'] * current_trade.size
|
||||
cost = revenue * self.commission
|
||||
pnl = (row['close'] - current_trade.entry_price) * current_trade.size - cost
|
||||
self.capital += revenue - cost
|
||||
|
||||
current_trade.exit_time = timestamp
|
||||
current_trade.exit_price = row['close']
|
||||
current_trade.pnl = pnl
|
||||
self.trades.append(current_trade)
|
||||
position = 0
|
||||
current_trade = None
|
||||
|
||||
# 记录净值曲线
|
||||
if position == 1 and current_trade:
|
||||
unrealized_pnl = (row['close'] - current_trade.entry_price) * current_trade.size
|
||||
self.equity_curve.append(self.capital + unrealized_pnl)
|
||||
else:
|
||||
self.equity_curve.append(self.capital)
|
||||
|
||||
return self.calculate_metrics()
|
||||
|
||||
def calculate_metrics(self) -> dict:
|
||||
equity = pd.Series(self.equity_curve)
|
||||
returns = equity.pct_change().dropna()
|
||||
|
||||
total_return = (equity.iloc[-1] / self.initial_capital - 1) * 100
|
||||
max_drawdown = ((equity.cummax() - equity) / equity.cummax()).max() * 100
|
||||
sharpe = returns.mean() / returns.std() * np.sqrt(365 * 24) # 小时级别
|
||||
|
||||
winning_trades = [t for t in self.trades if t.pnl and t.pnl > 0]
|
||||
win_rate = len(winning_trades) / len(self.trades) if self.trades else 0
|
||||
|
||||
return {
|
||||
'总收益率': f"{total_return:.2f}%",
|
||||
'最大回撤': f"{max_drawdown:.2f}%",
|
||||
'夏普比率': f"{sharpe:.2f}",
|
||||
'胜率': f"{win_rate:.2%}",
|
||||
'总交易次数': len(self.trades),
|
||||
'最终资金': f"${self.capital:.2f}"
|
||||
}
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 五、前向测试(Walk-Forward Analysis)
|
||||
|
||||
前向测试是最接近实盘的回测方法,通过滚动窗口模拟参数定期重新优化的过程:
|
||||
|
||||
```
|
||||
时间轴:|---训练期---|---测试期---|---训练期---|---测试期---|
|
||||
窗口 1 窗口 2
|
||||
|
||||
流程:
|
||||
1. 在训练期内优化参数
|
||||
2. 用优化后的参数在测试期内运行策略
|
||||
3. 滚动到下一个窗口
|
||||
4. 汇总所有测试期的绩效
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 参考资料
|
||||
|
||||
- QuantStart. "Backtesting Systematic Trading Strategies in Python". https://www.quantstart.com/
|
||||
- Backtesting.py 文档:https://kernc.github.io/backtesting.py/
|
||||
- BigQuant 量化平台:https://bigquant.com/
|
||||
在新工单中引用
屏蔽一个用户