# 回测方法论与实践

> 回测是量化交易策略开发中最关键的环节。本文档详细介绍回测的正确方法、常见偏差的规避技巧，以及主要绩效评估指标的计算与解读。

---

## 一、回测的核心原则

### 1.1 什么是好的回测

一个可靠的回测应满足以下条件：

- **无未来数据泄露**：策略在任何时刻只能使用该时刻之前的数据
- **包含真实交易成本**：手续费、滑点、借贷成本
- **样本外验证**：在从未用于优化的数据上测试
- **多市场验证**：在不同市场条件下均表现稳定
- **统计显著性**：足够多的交易次数，避免小样本偏差

### 1.2 回测流程

```
1. 策略假设定义
      ↓
2. 历史数据准备（清洗、验证）
      ↓
3. 样本内回测（In-Sample，用于参数优化）
      ↓
4. 样本外验证（Out-of-Sample，评估真实表现）
      ↓
5. 前向测试（Walk-Forward，模拟实盘）
      ↓
6. 纸面交易（Paper Trading，实时验证）
      ↓
7. 小资金实盘（逐步增加资金）
```

---

## 二、常见回测偏差

### 2.1 过拟合偏差（Overfitting Bias）

**定义**：策略参数过度优化，在历史数据上表现完美，但在新数据上失效。

**识别方法**：
- 样本内夏普比率远高于样本外（> 2 倍差距）
- 策略参数过多（自由度过高）
- 参数微小变化导致绩效大幅波动

**规避方法**：
- 使用奥卡姆剃刀原则：简单策略优于复杂策略
- 参数敏感性测试：参数在合理范围内变化时，绩效应相对稳定
- 交叉验证：将数据分为多个折叠，分别测试

### 2.2 数据窥探偏差（Data Snooping Bias）

**定义**：在同一数据集上反复测试多个策略，直到找到"有效"的策略。

**规避方法**：
- 严格区分样本内和样本外数据
- 使用 Bonferroni 校正调整多重检验的显著性水平
- 预先注册策略假设（Pre-registration）

### 2.3 幸存者偏差（Survivorship Bias）

**定义**：历史数据只包含至今仍存在的资产，已退市或破产的资产被排除。

**加密货币中的体现**：
- 许多山寀币已归零，但历史数据库可能不包含这些数据
- 只看当前主流币的历史表现，会高估策略收益

**规避方法**：
- 使用包含退市资产的完整数据集
- 在策略中加入资产筛选机制（如市值门槛）

### 2.4 未来数据泄露（Look-Ahead Bias）

**定义**：在计算指标时，使用了当时不可能获得的未来数据。

**常见错误**：
```python
# 错误示例：使用当天最高价计算信号（当天收盘前不知道最高价）
signal = df['high'].rolling(20).max()  # 错误！

# 正确示例：使用前一天的最高价
signal = df['high'].shift(1).rolling(20).max()  # 正确
```

**tradehk 的处理**：信号在 K 线收盘后计算，下一根 K 线开盘时执行，避免了未来数据泄露。

### 2.5 交易成本忽略（Transaction Cost Neglect）

**加密货币交易成本构成**：

| 成本类型 | 典型值 | 说明 |
|----------|--------|------|
| Maker 手续费 | 0.02-0.05% | 挂限价单 |
| Taker 手续费 | 0.04-0.1% | 吃市价单 |
| 滑点 | 0.01-0.5% | 取决于流动性和订单大小 |
| 资金费率 | ±0.01%/8h | 永续合约持仓成本 |

**回测中的处理**：
```python
# 建议在回测中使用略高于实际的手续费，留出安全边际
COMMISSION_RATE = 0.001  # 0.1%（含滑点）

def calculate_pnl(entry_price, exit_price, side, size):
    if side == 'LONG':
        gross_pnl = (exit_price - entry_price) * size
    else:
        gross_pnl = (entry_price - exit_price) * size
    
    # 扣除双边手续费
    commission = (entry_price + exit_price) * size * COMMISSION_RATE
    return gross_pnl - commission
```

---

## 三、绩效评估指标

### 3.1 收益类指标

**总收益率（Total Return）**：
$$R_{total} = \frac{最终净值 - 初始资金}{初始资金} \times 100\%$$

**年化收益率（CAGR）**：
$$CAGR = \left(\frac{最终净值}{初始资金}\right)^{\frac{1}{年数}} - 1$$

### 3.2 风险调整收益指标

**夏普比率（Sharpe Ratio）**：
$$Sharpe = \frac{年化收益率 - 无风险利率}{年化波动率}$$

| 夏普比率 | 评级 |
|----------|------|
| < 0 | 不可接受 |
| 0-0.5 | 较差 |
| 0.5-1.0 | 一般 |
| 1.0-2.0 | 良好 |
| > 2.0 | 优秀 |

**索提诺比率（Sortino Ratio）**：只考虑下行波动率，更适合非对称收益分布：
$$Sortino = \frac{年化收益率 - 无风险利率}{下行波动率}$$

**卡尔玛比率（Calmar Ratio）**：
$$Calmar = \frac{年化收益率}{最大回撤}$$

### 3.3 风险类指标

**最大回撤（Maximum Drawdown）**：
$$MDD = \max_{t \in [0,T]} \left(\frac{峰值净值 - 当前净值}{峰值净值}\right)$$

**回撤持续时间**：从峰值到恢复峰值所需的时间，越短越好。

**VaR（风险价值）**：在给定置信水平下，未来某时间段内可能发生的最大损失。

### 3.4 交易质量指标

| 指标 | 计算方法 | 目标值 |
|------|----------|--------|
| 胜率 | 盈利交易数 / 总交易数 | > 50%（趋势策略可低于 50%） |
| 盈亏比 | 平均盈利 / 平均亏损 | > 1.5 |
| 期望值 | 胜率 × 盈亏比 - (1 - 胜率) | > 0 |
| 最大连续亏损 | 连续亏损的最大次数 | 越小越好 |

---

## 四、Python 回测框架

### 4.1 主流回测库对比

| 框架 | 特点 | 适用场景 |
|------|------|----------|
| Backtrader | 功能全面，文档丰富 | 股票、期货 |
| Backtesting.py | 简洁易用，可视化好 | 快速原型 |
| QuantConnect | 云端，支持多资产 | 专业量化 |
| Freqtrade | 专为加密货币设计 | 加密货币 |
| VectorBT | 向量化，速度极快 | 大规模回测 |

### 4.2 简单回测框架实现

```python
import pandas as pd
import numpy as np
from dataclasses import dataclass
from typing import List, Optional

@dataclass
class Trade:
    entry_time: pd.Timestamp
    exit_time: Optional[pd.Timestamp]
    side: str  # 'LONG' or 'SHORT'
    entry_price: float
    exit_price: Optional[float]
    size: float
    pnl: Optional[float] = None

class SimpleBacktester:
    def __init__(self, initial_capital: float = 10000, commission: float = 0.001):
        self.initial_capital = initial_capital
        self.commission = commission
        self.capital = initial_capital
        self.trades: List[Trade] = []
        self.equity_curve = []
    
    def run(self, df: pd.DataFrame, signals: pd.Series) -> dict:
        """
        df: K 线数据（含 OHLCV）
        signals: 信号序列（1=买入，-1=卖出，0=持仓）
        """
        position = 0
        current_trade = None
        
        for i, (timestamp, row) in enumerate(df.iterrows()):
            signal = signals.iloc[i]
            
            # 开多仓
            if signal == 1 and position == 0:
                size = self.capital / row['close']
                cost = row['close'] * size * self.commission
                self.capital -= cost
                position = 1
                current_trade = Trade(
                    entry_time=timestamp,
                    exit_time=None,
                    side='LONG',
                    entry_price=row['close'],
                    exit_price=None,
                    size=size
                )
            
            # 平多仓
            elif signal == -1 and position == 1:
                revenue = row['close'] * current_trade.size
                cost = revenue * self.commission
                pnl = (row['close'] - current_trade.entry_price) * current_trade.size - cost
                self.capital += revenue - cost
                
                current_trade.exit_time = timestamp
                current_trade.exit_price = row['close']
                current_trade.pnl = pnl
                self.trades.append(current_trade)
                position = 0
                current_trade = None
            
            # 记录净值曲线
            if position == 1 and current_trade:
                unrealized_pnl = (row['close'] - current_trade.entry_price) * current_trade.size
                self.equity_curve.append(self.capital + unrealized_pnl)
            else:
                self.equity_curve.append(self.capital)
        
        return self.calculate_metrics()
    
    def calculate_metrics(self) -> dict:
        equity = pd.Series(self.equity_curve)
        returns = equity.pct_change().dropna()
        
        total_return = (equity.iloc[-1] / self.initial_capital - 1) * 100
        max_drawdown = ((equity.cummax() - equity) / equity.cummax()).max() * 100
        sharpe = returns.mean() / returns.std() * np.sqrt(365 * 24)  # 小时级别
        
        winning_trades = [t for t in self.trades if t.pnl and t.pnl > 0]
        win_rate = len(winning_trades) / len(self.trades) if self.trades else 0
        
        return {
            '总收益率': f"{total_return:.2f}%",
            '最大回撤': f"{max_drawdown:.2f}%",
            '夏普比率': f"{sharpe:.2f}",
            '胜率': f"{win_rate:.2%}",
            '总交易次数': len(self.trades),
            '最终资金': f"${self.capital:.2f}"
        }
```

---

## 五、前向测试（Walk-Forward Analysis）

前向测试是最接近实盘的回测方法，通过滚动窗口模拟参数定期重新优化的过程：

```
时间轴：|---训练期---|---测试期---|---训练期---|---测试期---|
         窗口 1                   窗口 2

流程：
1. 在训练期内优化参数
2. 用优化后的参数在测试期内运行策略
3. 滚动到下一个窗口
4. 汇总所有测试期的绩效
```

---

## 参考资料

- QuantStart. "Backtesting Systematic Trading Strategies in Python". https://www.quantstart.com/
- Backtesting.py 文档：https://kernc.github.io/backtesting.py/
- BigQuant 量化平台：https://bigquant.com/

---

## 附录：数据说明与补充

本文档旨在对回测方法论中的核心概念进行深化，提供更详尽的数据说明、参数参考、应用场景及常见误区，以帮助量化研究员和策略开发者建立更为严谨和科学的回测体系。

### 一、核心绩效指标数据说明

在评估策略表现时，精确理解各项绩效指标的计算细节、数据特征与来源至关重要。下表对文档中提及的关键指标进行了详细的补充说明。

| 指标名称 (Indicator) | 计算公式 (LaTeX) | 数据范围 | 单位 | 推荐精度 | 数据来源 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| **夏普比率 (Sharpe Ratio)** | `\frac{E[R_p - R_f]}{\sigma_p}` | (-∞, +∞) | 无量纲 | 小数点后 2-3 位 | 策略每日或每周期收益率序列 |
| **索提诺比率 (Sortino Ratio)** | `\frac{E[R_p - R_f]}{\sigma_d}` | (-∞, +∞) | 无量纲 | 小数点后 2-3 位 | 策略每日或每周期收益率序列 |
| **卡尔玛比率 (Calmar Ratio)** | `\frac{CAGR}{|MDD|}` | (-∞, +∞) | 无量纲 | 小数点后 2-3 位 | 策略净值曲线、年化收益率 |
| **最大回撤 (Max Drawdown)** | `\max_{t \in [0,T]} \left(\frac{P(t) - V(t)}{P(t)}\right)` | [0, 1] | 百分比 (%) | 小数点后 2 位 | 策略净值曲线 (Equity Curve) |
| **风险价值 (VaR)** | `\text{Value at Risk}` | [0, +∞) | 计价货币 (如 USD) | 小数点后 2-4 位 | 策略历史收益率分布 |
| **盈亏比 (Profit/Loss Ratio)** | `\frac{\text{Avg. Profit}}{\text{Avg. Loss}}` | [0, +∞) | 无量纲 | 小数点后 2 位 | 已完成的交易记录列表 |

其中，$R_p$ 为策略收益率，$R_f$ 为[无风险利率](../../wiki/名词解释/无风险利率.md)，$\sigma_p$ 为策略收益率的标准差（总波动率），$\sigma_d$ 为下行标准差（只考虑亏损日的波动率），$P(t)$ 为时间 $t$ 的历史峰值净值，$V(t)$ 为时间 $t$ 的当前净值。

### 二、回测框架参数参考

回测框架中的参数设置直接影响回测结果的准确性和可信度。以下是对 `SimpleBacktester` 及通用回测环境中的关键参数的配置建议。

| 参数名称 | 推荐值 | 取值范围 | 说明与考量 |
| :--- | :--- | :--- | :--- |
| `initial_capital` | 10,000 USD | > 1,000 | 初始资金应与实盘计划投入的资金规模相匹配，以便更真实地评估资金利用率和冲击成本。 |
| `commission` | 0.001 (0.1%) | 0.0005 - 0.002 | **必须包含滑点**。建议设为交易所 Taker 费率的 1.5-2 倍，以模拟平均成交滑点和手续费。 |
| `risk_free_rate` | 0.02 (2%) | 0.01 - 0.05 | 用于计算夏普比率等指标。可参考美国国债短期利率或主流交易所的稳定币理财利率。 |
| 样本内周期 | 2-3 年 | 1-5 年 | 训练周期应足够长以包含多种市场状态（牛、熊、震荡），但过长可能导致模型对近期市场状态不敏感。 |
| 样本外/前向测试周期 | 1 年 | 0.5-2 年 | 测试期应独立于训练期，其长度应能体现策略在未知环境下的稳定性。 |

### 三、数据格式规范

标准化的数据结构是程序化回测的基础。所有输入数据和输出结果都应遵循统一的格式规范。

**1. K线数据 (OHLCV)**

K线数据是回测的基础输入，推荐使用 Pandas DataFrame 存储，并采用统一的列名和时间戳格式。

*   **数据结构**: `pandas.DataFrame`
*   **索引**: `pandas.DatetimeIndex` (UTC, 毫秒级精度 `datetime64[ms]`)
*   **字段定义**:

```json
[
  {
    "timestamp": 1672531200000, // Unix 毫秒时间戳
    "open": 16500.00,
    "high": 16550.50,
    "low": 16480.25,
    "close": 16525.75,      // 价格精度要求：小数点后 2-4 位
    "volume": 1250.75      // 交易量精度要求：小数点后 2-4 位
  }
]
```

**2. 交易记录 (Trade Log)**

交易记录是评估策略行为和进行绩效归因的核心。建议使用对象列表或 DataFrame 进行管理。

*   **数据结构**: `List[Trade]` 或 `pandas.DataFrame`
*   **字段定义**:

```json
{
  "trade_id": "a1b2c3d4-e5f6-7890-1234-567890abcdef", // 唯一交易ID
  "entry_time": 1672534800000, // Unix 毫秒时间戳
  "exit_time": 1672542000000,
  "side": "LONG",             // 'LONG' or 'SHORT'
  "entry_price": 16530.00,
  "exit_price": 16600.50,
  "size": 0.5,                // 交易数量 (例如：BTC)
  "pnl": 34.50,               // 已实现盈亏 (计价货币)
  "commission_paid": 0.75,    // 支付的总手续费
  "reason_entry": "RSI < 30", // 开仓信号来源
  "reason_exit": "Take Profit"  // 平仓信号来源
}
```

### 四、量化交易应用场景

回测方法论不仅是理论，更在实际策略开发中扮演着决策依据的角色。

1.  **高频套利策略的成本评估**：对于一个依赖微小价差套利的[高频交易](../../wiki/名词解释/高频交易.md)策略，回测时必须精确设置 `commission` 和滑点模型。通过在回测中模拟 0.01% 到 0.1% 的不同滑点，可以确定策略在不同流动性环境下的盈利能力边界，从而决定该策略适合在哪些交易所或交易对上运行。

2.  **趋势跟踪策略的鲁棒性检验**：一个基于移动均线交叉的趋势策略在2020-2021年的牛市中表现优异。为了检验其[过拟合](../../wiki/名词解释/过拟合.md)风险，研究员采用**前向测试 (Walk-Forward Analysis)**。将2018-2022年的数据划分为多个“训练-测试”窗口，发现在2019年和2022年的震荡行情中，该策略表现不佳，最大回撤超过40%。这表明策略缺乏鲁棒性，需要引入震荡行情过滤器或动态调整参数。

3.  **多因子选币策略的偏差修正**：一个用于山寨币筛选的多因子模型在回测中获得了极高的夏普比率。但资深研究员怀疑其中存在**幸存者偏差**。通过引入一个包含已退市和归零币种的完整数据集进行回测，策略的年化收益率从 80% 下降到 15%，说明原有回测结果是严重失真的。这促使团队在因子选择中加入更多考虑流动性和存活周期的风险因子。

### 五、常见误区与正确理解

1.  **误区：夏普比率越高越好**
    *   **正确理解**：极高的夏普比率（例如 > 3.0）往往是过拟合或回测错误的信号。一个稳健的策略，其夏普比率通常在 1.0 到 2.0 之间。过高的夏普比率可能源于：测试周期过短且恰逢单边行情、忽略了交易成本、或存在未来数据泄露。应优先追求一个**稳定且合理**的夏普比率，而非最高值。

2.  **误区：回测时间越长，结果越可信**
    *   **正确理解**：虽然足够长的数据周期是必要的，但并非越长越好。市场结构会随时间演变（Market Regime Shift）。一个在10年前有效的策略，其逻辑可能已不适应当前由算法和衍生品主导的市场。更有效的方法是采用滚动窗口的**前向测试**，确保模型能适应近期市场环境，同时在足够长的历史数据上验证其跨周期的有效性。

3.  **误区：胜率是衡量策略好坏的首要标准**
    *   **正确理解**：胜率必须与**盈亏比**结合来看。一个胜率仅为 40% 的趋势跟踪策略，如果其盈亏比达到 3:1，其长期期望收益依然非常可观。相反，一个胜率高达 90% 的网格交易策略，可能因为一次黑天鹅事件的巨额亏损而导致账户归零。因此，[交易期望值](../../wiki/名词解释/交易期望值.md)（`胜率 × 盈亏比 - (1 - 胜率)`）是比单一胜率更科学的评估标准。

4.  **误区：回测代码中的 `shift(1)` 能完全避免未来数据**
    *   **正确理解**：`shift(1)` 是避免“用未来信息指导当前决策”的基础操作，但它无法防止更隐蔽的未来数据泄露。例如，在进行因子标准化（Z-Score）时，如果使用了整个数据集的均值和标准差，那么在回测的每一个时间点，实际上都隐式地包含了未来的数据信息。正确的做法是在每个时间点，只使用**截至该时间点**的历史数据来计算均值和标准差。