- 01_基础理论:量化交易基础概念、市场微观结构、加密货币特殊性 - 02_技术指标:完整指标体系(MA/EMA/MACD/RSI/KDJ/布林带/SuperTrend/DMI等) - 03_交易策略:趋势跟踪、均值回归、套利、动量策略详解 - 04_交易信号系统:多指标共振评分引擎(基于 tradehk 项目) - 05_市场品种:加密货币、XAUT黄金代币、代币化美股全览 - 06_数据流程:数据采集、清洗、存储、实时流处理 - 07_回测框架:回测方法论、偏差规避、绩效评估指标 - 08_风险管理:仓位管理、止损止盈、Kelly公式、杠杆管理 - 09_AI与机器学习:深度学习、强化学习、LLM在量化投资中的应用 - 10_链上数据分析:SOPR/MVRV/巨鲸监控/衍生品数据 - 11_参考文献:arXiv论文汇总、开源项目、数据平台资源 - samples/:Python信号计算器和回测样本代码 参考项目:tradehk(ssh://git@git.hk.hao.work:2222/hao/tradehk.git) 全部中文化,适用于加密货币(CEX/DEX)、XAUT黄金、代币化美股
301 行
9.8 KiB
Markdown
301 行
9.8 KiB
Markdown
# 回测方法论与实践
|
||
|
||
> 回测是量化交易策略开发中最关键的环节。本文档详细介绍回测的正确方法、常见偏差的规避技巧,以及主要绩效评估指标的计算与解读。
|
||
|
||
---
|
||
|
||
## 一、回测的核心原则
|
||
|
||
### 1.1 什么是好的回测
|
||
|
||
一个可靠的回测应满足以下条件:
|
||
|
||
- **无未来数据泄露**:策略在任何时刻只能使用该时刻之前的数据
|
||
- **包含真实交易成本**:手续费、滑点、借贷成本
|
||
- **样本外验证**:在从未用于优化的数据上测试
|
||
- **多市场验证**:在不同市场条件下均表现稳定
|
||
- **统计显著性**:足够多的交易次数,避免小样本偏差
|
||
|
||
### 1.2 回测流程
|
||
|
||
```
|
||
1. 策略假设定义
|
||
↓
|
||
2. 历史数据准备(清洗、验证)
|
||
↓
|
||
3. 样本内回测(In-Sample,用于参数优化)
|
||
↓
|
||
4. 样本外验证(Out-of-Sample,评估真实表现)
|
||
↓
|
||
5. 前向测试(Walk-Forward,模拟实盘)
|
||
↓
|
||
6. 纸面交易(Paper Trading,实时验证)
|
||
↓
|
||
7. 小资金实盘(逐步增加资金)
|
||
```
|
||
|
||
---
|
||
|
||
## 二、常见回测偏差
|
||
|
||
### 2.1 过拟合偏差(Overfitting Bias)
|
||
|
||
**定义**:策略参数过度优化,在历史数据上表现完美,但在新数据上失效。
|
||
|
||
**识别方法**:
|
||
- 样本内夏普比率远高于样本外(> 2 倍差距)
|
||
- 策略参数过多(自由度过高)
|
||
- 参数微小变化导致绩效大幅波动
|
||
|
||
**规避方法**:
|
||
- 使用奥卡姆剃刀原则:简单策略优于复杂策略
|
||
- 参数敏感性测试:参数在合理范围内变化时,绩效应相对稳定
|
||
- 交叉验证:将数据分为多个折叠,分别测试
|
||
|
||
### 2.2 数据窥探偏差(Data Snooping Bias)
|
||
|
||
**定义**:在同一数据集上反复测试多个策略,直到找到"有效"的策略。
|
||
|
||
**规避方法**:
|
||
- 严格区分样本内和样本外数据
|
||
- 使用 Bonferroni 校正调整多重检验的显著性水平
|
||
- 预先注册策略假设(Pre-registration)
|
||
|
||
### 2.3 幸存者偏差(Survivorship Bias)
|
||
|
||
**定义**:历史数据只包含至今仍存在的资产,已退市或破产的资产被排除。
|
||
|
||
**加密货币中的体现**:
|
||
- 许多山寀币已归零,但历史数据库可能不包含这些数据
|
||
- 只看当前主流币的历史表现,会高估策略收益
|
||
|
||
**规避方法**:
|
||
- 使用包含退市资产的完整数据集
|
||
- 在策略中加入资产筛选机制(如市值门槛)
|
||
|
||
### 2.4 未来数据泄露(Look-Ahead Bias)
|
||
|
||
**定义**:在计算指标时,使用了当时不可能获得的未来数据。
|
||
|
||
**常见错误**:
|
||
```python
|
||
# 错误示例:使用当天最高价计算信号(当天收盘前不知道最高价)
|
||
signal = df['high'].rolling(20).max() # 错误!
|
||
|
||
# 正确示例:使用前一天的最高价
|
||
signal = df['high'].shift(1).rolling(20).max() # 正确
|
||
```
|
||
|
||
**tradehk 的处理**:信号在 K 线收盘后计算,下一根 K 线开盘时执行,避免了未来数据泄露。
|
||
|
||
### 2.5 交易成本忽略(Transaction Cost Neglect)
|
||
|
||
**加密货币交易成本构成**:
|
||
|
||
| 成本类型 | 典型值 | 说明 |
|
||
|----------|--------|------|
|
||
| Maker 手续费 | 0.02-0.05% | 挂限价单 |
|
||
| Taker 手续费 | 0.04-0.1% | 吃市价单 |
|
||
| 滑点 | 0.01-0.5% | 取决于流动性和订单大小 |
|
||
| 资金费率 | ±0.01%/8h | 永续合约持仓成本 |
|
||
|
||
**回测中的处理**:
|
||
```python
|
||
# 建议在回测中使用略高于实际的手续费,留出安全边际
|
||
COMMISSION_RATE = 0.001 # 0.1%(含滑点)
|
||
|
||
def calculate_pnl(entry_price, exit_price, side, size):
|
||
if side == 'LONG':
|
||
gross_pnl = (exit_price - entry_price) * size
|
||
else:
|
||
gross_pnl = (entry_price - exit_price) * size
|
||
|
||
# 扣除双边手续费
|
||
commission = (entry_price + exit_price) * size * COMMISSION_RATE
|
||
return gross_pnl - commission
|
||
```
|
||
|
||
---
|
||
|
||
## 三、绩效评估指标
|
||
|
||
### 3.1 收益类指标
|
||
|
||
**总收益率(Total Return)**:
|
||
$$R_{total} = \frac{最终净值 - 初始资金}{初始资金} \times 100\%$$
|
||
|
||
**年化收益率(CAGR)**:
|
||
$$CAGR = \left(\frac{最终净值}{初始资金}\right)^{\frac{1}{年数}} - 1$$
|
||
|
||
### 3.2 风险调整收益指标
|
||
|
||
**夏普比率(Sharpe Ratio)**:
|
||
$$Sharpe = \frac{年化收益率 - 无风险利率}{年化波动率}$$
|
||
|
||
| 夏普比率 | 评级 |
|
||
|----------|------|
|
||
| < 0 | 不可接受 |
|
||
| 0-0.5 | 较差 |
|
||
| 0.5-1.0 | 一般 |
|
||
| 1.0-2.0 | 良好 |
|
||
| > 2.0 | 优秀 |
|
||
|
||
**索提诺比率(Sortino Ratio)**:只考虑下行波动率,更适合非对称收益分布:
|
||
$$Sortino = \frac{年化收益率 - 无风险利率}{下行波动率}$$
|
||
|
||
**卡尔玛比率(Calmar Ratio)**:
|
||
$$Calmar = \frac{年化收益率}{最大回撤}$$
|
||
|
||
### 3.3 风险类指标
|
||
|
||
**最大回撤(Maximum Drawdown)**:
|
||
$$MDD = \max_{t \in [0,T]} \left(\frac{峰值净值 - 当前净值}{峰值净值}\right)$$
|
||
|
||
**回撤持续时间**:从峰值到恢复峰值所需的时间,越短越好。
|
||
|
||
**VaR(风险价值)**:在给定置信水平下,未来某时间段内可能发生的最大损失。
|
||
|
||
### 3.4 交易质量指标
|
||
|
||
| 指标 | 计算方法 | 目标值 |
|
||
|------|----------|--------|
|
||
| 胜率 | 盈利交易数 / 总交易数 | > 50%(趋势策略可低于 50%) |
|
||
| 盈亏比 | 平均盈利 / 平均亏损 | > 1.5 |
|
||
| 期望值 | 胜率 × 盈亏比 - (1 - 胜率) | > 0 |
|
||
| 最大连续亏损 | 连续亏损的最大次数 | 越小越好 |
|
||
|
||
---
|
||
|
||
## 四、Python 回测框架
|
||
|
||
### 4.1 主流回测库对比
|
||
|
||
| 框架 | 特点 | 适用场景 |
|
||
|------|------|----------|
|
||
| Backtrader | 功能全面,文档丰富 | 股票、期货 |
|
||
| Backtesting.py | 简洁易用,可视化好 | 快速原型 |
|
||
| QuantConnect | 云端,支持多资产 | 专业量化 |
|
||
| Freqtrade | 专为加密货币设计 | 加密货币 |
|
||
| VectorBT | 向量化,速度极快 | 大规模回测 |
|
||
|
||
### 4.2 简单回测框架实现
|
||
|
||
```python
|
||
import pandas as pd
|
||
import numpy as np
|
||
from dataclasses import dataclass
|
||
from typing import List, Optional
|
||
|
||
@dataclass
|
||
class Trade:
|
||
entry_time: pd.Timestamp
|
||
exit_time: Optional[pd.Timestamp]
|
||
side: str # 'LONG' or 'SHORT'
|
||
entry_price: float
|
||
exit_price: Optional[float]
|
||
size: float
|
||
pnl: Optional[float] = None
|
||
|
||
class SimpleBacktester:
|
||
def __init__(self, initial_capital: float = 10000, commission: float = 0.001):
|
||
self.initial_capital = initial_capital
|
||
self.commission = commission
|
||
self.capital = initial_capital
|
||
self.trades: List[Trade] = []
|
||
self.equity_curve = []
|
||
|
||
def run(self, df: pd.DataFrame, signals: pd.Series) -> dict:
|
||
"""
|
||
df: K 线数据(含 OHLCV)
|
||
signals: 信号序列(1=买入,-1=卖出,0=持仓)
|
||
"""
|
||
position = 0
|
||
current_trade = None
|
||
|
||
for i, (timestamp, row) in enumerate(df.iterrows()):
|
||
signal = signals.iloc[i]
|
||
|
||
# 开多仓
|
||
if signal == 1 and position == 0:
|
||
size = self.capital / row['close']
|
||
cost = row['close'] * size * self.commission
|
||
self.capital -= cost
|
||
position = 1
|
||
current_trade = Trade(
|
||
entry_time=timestamp,
|
||
exit_time=None,
|
||
side='LONG',
|
||
entry_price=row['close'],
|
||
exit_price=None,
|
||
size=size
|
||
)
|
||
|
||
# 平多仓
|
||
elif signal == -1 and position == 1:
|
||
revenue = row['close'] * current_trade.size
|
||
cost = revenue * self.commission
|
||
pnl = (row['close'] - current_trade.entry_price) * current_trade.size - cost
|
||
self.capital += revenue - cost
|
||
|
||
current_trade.exit_time = timestamp
|
||
current_trade.exit_price = row['close']
|
||
current_trade.pnl = pnl
|
||
self.trades.append(current_trade)
|
||
position = 0
|
||
current_trade = None
|
||
|
||
# 记录净值曲线
|
||
if position == 1 and current_trade:
|
||
unrealized_pnl = (row['close'] - current_trade.entry_price) * current_trade.size
|
||
self.equity_curve.append(self.capital + unrealized_pnl)
|
||
else:
|
||
self.equity_curve.append(self.capital)
|
||
|
||
return self.calculate_metrics()
|
||
|
||
def calculate_metrics(self) -> dict:
|
||
equity = pd.Series(self.equity_curve)
|
||
returns = equity.pct_change().dropna()
|
||
|
||
total_return = (equity.iloc[-1] / self.initial_capital - 1) * 100
|
||
max_drawdown = ((equity.cummax() - equity) / equity.cummax()).max() * 100
|
||
sharpe = returns.mean() / returns.std() * np.sqrt(365 * 24) # 小时级别
|
||
|
||
winning_trades = [t for t in self.trades if t.pnl and t.pnl > 0]
|
||
win_rate = len(winning_trades) / len(self.trades) if self.trades else 0
|
||
|
||
return {
|
||
'总收益率': f"{total_return:.2f}%",
|
||
'最大回撤': f"{max_drawdown:.2f}%",
|
||
'夏普比率': f"{sharpe:.2f}",
|
||
'胜率': f"{win_rate:.2%}",
|
||
'总交易次数': len(self.trades),
|
||
'最终资金': f"${self.capital:.2f}"
|
||
}
|
||
```
|
||
|
||
---
|
||
|
||
## 五、前向测试(Walk-Forward Analysis)
|
||
|
||
前向测试是最接近实盘的回测方法,通过滚动窗口模拟参数定期重新优化的过程:
|
||
|
||
```
|
||
时间轴:|---训练期---|---测试期---|---训练期---|---测试期---|
|
||
窗口 1 窗口 2
|
||
|
||
流程:
|
||
1. 在训练期内优化参数
|
||
2. 用优化后的参数在测试期内运行策略
|
||
3. 滚动到下一个窗口
|
||
4. 汇总所有测试期的绩效
|
||
```
|
||
|
||
---
|
||
|
||
## 参考资料
|
||
|
||
- QuantStart. "Backtesting Systematic Trading Strategies in Python". https://www.quantstart.com/
|
||
- Backtesting.py 文档:https://kernc.github.io/backtesting.py/
|
||
- BigQuant 量化平台:https://bigquant.com/
|