feat: 全面优化迭代所有文档 - 增加数据说明+计算公式+名词解释+内部链接

变更统计: - 70个文件变更 (39个新增 + 31个修改) - 新增 6554 行内容优化内容: 1. 30个核心文档增加附录(数据说明/计算公式/参数表/使用场景/常见误区) - 第一批: 量化基础/技术指标/策略/信号/品种/数据流/回测/风控/链上/EWO - 第二批: AI/案例复盘/多Agent/Hyperliquid/KOL/期权/RWA/券商/BTC/主流币 - 第三批: ETH/SOL/BNB_DOGE/XAUT/代币化美股/信号优化/tradehk系统 2. 新增38个名词解释wiki条目(Delta对冲/Gamma/Theta/Vega/IV/VaR/CVaR等) 3. 更新全局术语表索引(79个术语/12大类/知识图谱/学习路径) 4. 新增内部链接体系(wiki式交叉引用)
2026-03-06 05:09:34 -05:00
--- a/09_AI与机器学习/AI量化投资前沿.md
+++ b/09_AI与机器学习/AI量化投资前沿.md
@@ -314,3 +314,110 @@ def create_labels(df: pd.DataFrame, horizon: int = 5, threshold: float = 0.01) -
 [^4]: "Reinforcement Learning Framework for Quantitative Trading". arXiv:2411.07585, 2024. https://arxiv.org/abs/2411.07585

 [^5]: "Meta-Learning Reinforcement Learning for Crypto-Return Prediction". arXiv:2509.09751, 2025. https://arxiv.org/abs/2509.09751
+
+---
+
+## 附录：数据说明与补充
+
+本附录旨在对文档中涉及的核心概念、技术指标及模型参数提供更详尽的说明，以增强内容的可操作性和学术严谨性。内容涵盖数据规范、参数参考、应用场景及常见误区，为研究人员和实践者提供实践指导。
+
+### 一、核心技术指标数据说明
+
+在量化交易的机器学习模型中，输入特征的质量直接决定了模型的成败。下表详细梳理了文档中提及的关键技术指标的计算方法、数据属性及来源，以确保数据处理的一致性和准确性。
+
+| 指标名称 (Indicator) | 计算公式 (LaTeX) | 数据范围 | 单位 | 精度要求 | 数据来源 |
+| :--- | :--- | :--- | :--- | :--- | :--- |
+| **相对强弱指数 (RSI)** | $RSI = 100 - \frac{100}{1 + RS}$ <br> $RS = \frac{Avg. Gain}{Avg. Loss}$ | [0, 100] | 无 | 小数点后 2-4 位 | K 线收盘价 | 
+| **平滑异同移动平均线 (MACD)** | $MACD = EMA_{short}(C) - EMA_{long}(C)$ <br> $Signal = EMA_{signal}(MACD)$ | $(-\infty, +\infty)$ | 价格单位 | 小数点后 4-8 位 | K 线收盘价 |
+| **指数加权移动平均线 (EWO)** | $EWO_t = \alpha \cdot C_t + (1-\alpha) \cdot EWO_{t-1}$ | $(0, +\infty)$ | 价格单位 | 小数点后 4-8 位 | K 线收盘价 |
+| **真实波幅均值 (ATR)** | $ATR = \frac{1}{n} \sum_{i=1}^{n} TR_i$ <br> $TR = max[(H-L), |H-C_{prev}|, |L-C_{prev}|]$ | $(0, +\infty)$ | 价格单位 | 小数点后 4-8 位 | K 线 OHLC 价 |
+| **布林带宽度 (BB Width)** | $BBW = \frac{UpperBand - LowerBand}{MiddleBand}$ | $[0, +\infty)$ | 百分比 (%) | 小数点后 2-4 位 | K 线收盘价 |
+| **能量潮 (OBV)** | $OBV_t = OBV_{t-1} + sign(C_t - C_{t-1}) \cdot V_t$ | $(-\infty, +\infty)$ | 成交量单位 | 整数 | K 线收盘价与成交量 |
+
+**注**：公式中的 $C$ 代表收盘价，$H$ 为最高价，$L$ 为最低价，$V$ 为成交量。$EMA$ 指数移动平均。数据来源通常为交易所提供的原始 K 线数据（OHLCV）。
+
+### 二、模型关键参数参考
+
+AI 模型的性能高度依赖于参数选择。下表为文档中关键模型提供了参数的推荐值与一般取值范围，供模型训练时参考。
+
+| 模型/模块 | 参数名称 | 推荐值 | 取值范围/说明 |
+| :--- | :--- | :--- | :--- |
+| **LSTM 价格预测** | `hidden_size` | 128 | [32, 256]，取决于特征维度和数据复杂性 |
+| | `num_layers` | 2 | [1, 4]，层数过多易导致过拟合 |
+| | `dropout` | 0.2 | [0.1, 0.5]，用于正则化，防止过拟合 |
+| | `input_size` | 10 | 特征数量，根据[特征工程](../../wiki/名词解释/特征工程.md)的结果确定 |
+| **FinRL (PPO 算法)** | `initial_amount` | 10,000 | 初始资金，单位为计价货币 (如 USDT) |
+| | `crypto_dim` | 5 | 交易的加密货币种类数量 |
+| | `total_timesteps` | 50,000 | [20000, 100000+]，训练步长，越大训练越充分 |
+| **分类标签构建** | `horizon` | 5 | [1, 20]，预测时间窗口，单位为 K 线周期 |
+| | `threshold` | 0.01 | [0.005, 0.03]，定义涨/跌的最小回报率阈值 |
+
+### 三、数据格式规范
+
+为确保不同模块间的数据交互顺畅，定义标准的数据输入输出格式至关重要。
+
+**1. K 线输入数据 (JSON 数组)**
+
+K 线数据应采用 JSON 数组格式，每个元素代表一个时间步的数据点。
+
+```json
+[
+  {
+    "timestamp": 1672531200000, // Unix 毫秒时间戳
+    "open": 16500.00,
+    "high": 16550.50,
+    "low": 16480.20,
+    "close": 16525.30,
+    "volume": 120.5 // 交易量，单位为基础资产 (如 BTC)
+  },
+  // ... more k-line data
+]
+```
+
+- **字段类型**：`timestamp` 为整数 (Integer)，其余价格和成交量字段为浮点数 (Float)。
+- **时间戳格式**：推荐使用 **Unix 毫-秒时间戳**，便于跨语言处理且精度较高。
+
+**2. LLM 情绪分析输出 (JSON 对象)**
+
+LLM 分析结果应为结构化的 JSON 对象，便于程序解析和后续处理。
+
+```json
+{
+  "sentiment_score": 7.5, // 情绪评分，-10 到 +10
+  "affected_assets": ["BTC", "ETH"], // 影响的主要资产
+  "duration_hours": 24, // 预期影响持续时间（小时）
+  "confidence": 0.85 // 置信度，0 到 1
+}
+```
+
+### 四、核心概念应用场景
+
+理论与实践的结合是量化投资成功的关键。以下为文档中核心 AI 模型的实际应用场景。
+
+- **LSTM 价格预测**
+  1. **高频套利**：在分钟级 K 线上训练 LSTM 模型，预测未来几个时间步的价格变动方向。当模型预测上涨概率超过阈值时执行买入，反之卖出，以捕捉微小的价格波动获利。
+  2. **动态止损止盈**：将 LSTM 预测的未来价格分布作为输入，动态调整现有头寸的止损位和止盈位。例如，若模型预测未来波动率将显著放大，则相应放宽止损范围，避免被市场噪音提前洗出。
+
+- **强化学习 (RL) 交易**
+  1. **自动化做市策略**：在去中心化交易所 (DEX) 中，训练一个[强化学习](../../wiki/名词解释/强化学习.md) Agent，使其学会在不同市场状态下（如高波动、低流动性）智能地调整买卖报价的价差 (spread) 和深度 (depth)，以最大化做市收益并控制库存风险。
+  2. **多资产动态资产配置**：使用 PPO 等高级 RL 算法，训练 Agent 管理一个包含多种加密货币（如 BTC, ETH, SOL）的投资组合。Agent 的[状态（State）](../../wiki/名词解释/状态.md)不仅包括价格信息，还包括资产间的相关性矩阵，[动作（Action）](../../wiki/名词解释/动作.md)是调整各项资产的权重，[奖励（Reward）](../../wiki/名词解释/奖励.md)则设置为优化整体投资组合的[夏普比率](../../wiki/名词解释/夏普比率.md)。
+
+- **LLM 情绪分析**
+  1. **事件驱动交易**：实时监控来自新闻、社交媒体（如 X/Twitter）和监管机构公告的文本数据。利用 LLM 快速分析文本中蕴含的市场情绪，当检测到重大利好或利空消息时（如某代币通过重要提案、或遭遇安全漏洞），自动执行交易指令，抢占市场先机。
+  2. **Alpha 因子挖掘**：将 LLM 提取的结构化情绪数据（如情绪评分、主题）作为一种新型[Alpha 因子](../../wiki/名词解释/Alpha因子.md)，与传统的价格、成交量因子结合，输入到更复杂的机器学习模型中，以提升整体策略的预测能力和夏普比率。
+
+### 五、常见误区与正确理解
+
+在应用 AI 进行量化投资时，初学者和部分从业者容易陷入一些误区。澄清这些问题有助于建立科学、理性的投资框架。
+
+1. **误区：AI 模型能够精确预测未来价格。**
+   - **正确理解**：金融市场是高度复杂的混沌系统，任何模型都无法实现 100% 准确的预测。AI 模型的价值在于提供概率优势，即在大量交易中，其预测的胜率和盈亏比能够覆盖交易成本并产生正向期望收益。应将 AI 视为决策辅助工具，而非水晶球。
+
+2. **误区：模型越复杂（如参数量越大的 Transformer），效果一定越好。**
+   - **正确理解**：模型的复杂性必须与数据的信噪比和样本量相匹配。在金融这种高噪声领域，过于复杂的模型极易发生[过拟合](../../wiki/名词解释/过拟合.md)，即在历史数据上表现完美，但在未来实盘中表现糟糕。奥卡姆剃刀原则在此同样适用：如无必要，勿增实体。简单的模型（如 LightGBM）有时比复杂的[深度学习](../../wiki/名词解释/深度学习.md)模型更稳健。
+
+3. **误区：历史回测的高收益意味着未来也能盈利。**
+   - **正确理解**：完美的回测曲线往往是过度优化（Curve Fitting）的结果。必须警惕未来函数、幸存者偏差、交易成本被忽略等回测陷阱。一个可靠的回测需要经过严格的样本外测试、前向测试，并进行稳健性分析（如蒙特卡洛模拟），同时要充分考虑滑点、手续费等实际交易成本。
+
+4. **误区：LLM 情绪分析是一个独立的、可持续盈利的策略。**
+   - **正确理解**：基于情绪分析的信号通常具有很强的时效性，其有效性会随着市场关注度的提升而快速衰减。因此，单纯依赖情绪分析很难构建长期稳健的策略。更有效的方法是将其作为一种另类数据源，融入多因子模型框架中，与其他低相关性的 Alpha 因子共同作用。