金色財經
作者:Tinkle 來源:X,@Web3Tinkle
在討論 AI 交易之前,有必要把大模型的計算本質講清楚。
很多人把 LLM 當黑箱,覺得它"理解"了語言,能"思考"問題。實際上拆開來看,就是一套向量運算。
人類用詞彙和語法表達意義。機器不認識詞彙,只認識數字。
大模型的第一步,是把離散的 token(可以理解為詞或子詞)映射到連續的向量空間。每個 token 對應一個高維向量,通常是 4096 維甚至更高。
"今天" → [0.12, -0.45, 0.78, 0.23, ...](4096 個數字)
"天氣" → [0.34, -0.12, 0.56, 0.89, ...](4096 個數字)
這個映射是通過 embedding 表學習得到的。訓練過程中,語義相近的詞會被映射到向量空間中相近的位置。"國王"和"女王"的向量距離近,"國王"和"蘋果"的向量距離遠。
這不是人工設定的規則,是模型從海量文本中自己學出來的。
有了向量表示,下一個問題是:怎麼讓模型知道詞與詞之間的關係?
Transformer 的答案是 Self-Attention 機制。
對於序列中的每個位置,模型會問一個問題:我應該關注序列中的哪些其他位置?
具體計算:
Q = X · W_q (Query:我在找什麼)
K = X · W_k (Key:我能提供什麼)
V = X · W_v (Value:我的實際內容)
Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V
Q · Kᵀ 是點積運算。兩個向量越相似(指向相近的方向),點積越大。這就是在計算:當前位置的 Query 和其他位置的 Key 有多匹配。
softmax 把這些匹配分數歸一化成機率分布。然後用這個分布對 Value 做加權求和。
結果是:每個位置都聚合了序列中與它相關的資訊,相關性由向量相似度決定。
單層 attention 表達能力有限。Transformer 把多層 attention 堆疊起來,每層之後接一個前饋網路(FFN):
FFN(x) = activation(x · W_1) · W_2
activation 是非線性函數(ReLU、GELU、SwiGLU 等)。沒有非線性,多層線性變換等價於單層,模型就沒有深度可言。
DeepSeek、Qwen 等模型用了 MoE(Mixture of Experts)架構:不是所有參數都參與每次計算,而是動態路由到部分專家網路。這是效率優化,不改變計算本質。
經過 N 層處理後,最後一層的向量再乘以詞表矩陣,得到每個可能 token 的分數,softmax 歸一化成機率分布。
採樣或取最大機率,得到輸出 token。然後把這個 token 加入輸入序列,重複上述過程。這就是自回歸生成。
DeepSeek:MoE 架構,Multi-head Latent Attention 壓縮 KV cache,降低推理成本
Qwen:dense + MoE 雙產品線,SwiGLU 激活函數
Claude:架構未公開,推測是優化過的 dense Transformer
Gemini:多模態原生設計,圖像、音頻、文本共享 attention
GPT-4:傳聞 MoE,8 個專家每個 220B 參數
架構細節各異,但底層邏輯相同:
1. 把輸入映射到向量空間
2. 通過點積計算向量間的相似度
3. 用相似度加權聚合資訊
4. 堆疊多層 + 非線性變換
5. 輸出機率分布
沒有"理解",沒有"思考",就是高維空間裡的幾何運算。
這套邏輯能不能遷移到金融市場?下面展開。
理解了上面的計算流程,一個關鍵問題浮出水面:
大模型到底在做什麼?
表面上看,它在"預測下一個詞"。給定"今天天氣",它輸出"不錯"的機率最高。這看起來像預測。
但拆開計算過程,它實際在做的是:
1. 把當前上下文編碼成向量
2. 在參數空間中檢索與這個向量最匹配的模式
3. 輸出這個模式對應的機率分布
它不是在"預測未來會發生什麼",而是在"識別當前輸入最像訓練數據中的哪種模式"。
區別在哪?
預測是對未知事件的推斷。識別是對已知模式的匹配。
大模型之所以有效,是因為自然語言有強統計規律。"我昨天去了"後面大機率是地點,"如果...那麼..."後面大機率是結果。這些模式在訓練數據中反覆出現,模型學會了識別它們。
當你問 ChatGPT 一個問題,它不是在"思考答案",而是在"找到與你的問題最匹配的模式,然後輸出這個模式通常對應的回答"。
輸出看起來像預測,底層是模式識別。
把同樣的邏輯用到金融市場,一個自然的想法是:
把市場數據編碼成向量,檢索歷史上最相似的模式,輸出後續走勢的機率分布。
聽起來可行。但這裡有一個根本性的問題:
金融市場的"下一步走勢"和自然語言的"下一個詞",統計特性完全不同。
自然語言的統計規律極強。
給定足夠的上下文,下一個詞的熵(不確定性)很低。"中華人民共和"後面幾乎一定是"國"。模型可以用很高的置信度輸出。
金融市場的短期走勢接近隨機遊走。
給定任何技術指標、基本面數據、鏈上數據,下一根 K 線漲還是跌的機率接近 50:50。信號被噪聲淹沒。
Pratas et al. (2023) 測試 LSTM 在 BTC 波動率預測上的表現:模型能產出更平滑的曲線,但對 large spikes 沒有捕捉能力。模型學到的是"均值回歸"這個弱模式,對真正重要的極端事件無能為力。
語言的統計規律相對穩定。"蘋果"的語義一百年沒怎麼變。
市場結構持續演化。2021 年有效的規律 2024 年可能失效。監管環境、參與者結構、流動性分布都在變。你在歷史數據上學到的模式,面對的是一個不斷變化的分布。
語言生成沒有對手盤。你預測下一個詞是"吃",沒人會故意讓它變成"飛"。
金融市場是零和博弈。任何被識別出的有效模式,都會因為資金湧入而被套利掉。市場在對抗所有試圖利用模式的人。
大模型的能力是模式識別,不是預測。
在語言領域,模式識別的輸出看起來像預測,因為語言模式足夠穩定、足夠強。
在金融市場,試圖用同樣的方法"預測漲跌"會失敗,因為短期價格方向的模式太弱、太不穩定、太容易被對抗。
但這不意味著模式識別在金融領域沒有價值。問題在於:應該識別什麼模式?
預測漲跌信噪比太低,但有一個相關問題信噪比高得多:
當前市場處於什麼狀態?
市場不是均質的,在不同 regime 之間切換:
• 低波動震盪:窄幅區間,方向不明
• 高波動震盪:劇烈波動但無趨勢
• 單邊上漲:持續走高,回調淺
• 單邊下跌:持續走低,反彈弱
• 流動性危機:急跌伴隨大規模清算
Regime 有持續性。趨勢行情可能持續數天甚至數周,震盪市也是。時間尺度上的 autocorrelation 比單根 K 線漲跌顯著得多。
Hamilton (1989) 的 regime-switching 模型開創了這個方向。Wang et al. (2020) 用 HMM 識別美股牛熊狀態,在 2008 金融危機和 2020 COVID 崩盤期間有效規避大幅回撤。
他們的 alpha 來源不是預測漲跌,而是在高風險 regime 降低敞口。
把 LLM 框架遷移過來:
LLM:token → 向量 → 相似度計算 → 輸出分布
這裡:市場狀態 → 向量 → 相似度計算 → Regime 分類
目標:高維異構特徵壓縮成低維稠密向量。約束:regime 相似的時刻向量距離近,regime 不同的時刻向量距離遠。
參考 TS2Vec (Yue et al., AAAI 2022),時序表示學習 SOTA,UCR/UEA 150+ 數據集上表現優異。
核心:hierarchical contrastive learning,多時間尺度對比損失,同時學 timestamp-level 和 instance-level 表示。
對比學習定義正負樣本:
正樣本:兩個時刻後續走勢相似
負樣本:兩個時刻後續走勢不同
也可參考 SoftCLT (ICLR 2024),連續相似度替代硬標籤。
聚類法:歷史 embedding 做 KMeans/GMM,得到 K 個 cluster,人工解讀 regime 含義
檢索法:當前 embedding 檢索歷史 Top-K 相似時刻,統計 regime 分布
檢索法可解釋性更強,能輸出具體歷史類比。
HMM 假設觀測值服從特定分布(通常 Gaussian),狀態數預先指定。
神經網路不做分布假設,能處理高維輸入,能發現數據中自然存在的 regime 結構。
ADX、RSI、布林帶各自只捕捉一個維度,難以建模多因子交互,閾值人工設定。
端到端學習自動發現特徵組合,閾值數據驅動。
識別 regime 的價值在於策略選擇和風險控制。
低波動震盪 → 網格
趨勢行情 → 趨勢跟蹤
高波動震盪 → 降倉位
流動性危機 → 空倉
Wang et al. 研究表明,regime-switching 策略的超額收益主要來自在 adverse regime 降低敞口。
規則:識別到高風險 regime,倉位砍半或清倉。不追求抓每一波,但要避開系統性風險。
上面講的是方法論。落地需要基礎設施。
NoFx 不是"讓 LLM 預測漲跌"的產品。定位是 AI Trading 的基礎設施層。
加密貨幣市場數據極度碎片化。CEX API 格式各異,鏈上數據需要自己解析,衍生品數據分散在不同源頭。
NoFx 做的第一件事:異構數據歸一化,統一訪問接口。
價格數據:
• 多周期 K 線 OHLCV:1m / 3m / 5m / 15m / 30m / 1h / 2h / 4h / 6h / 8h / 12h / 1d / 3d / 1w / 1M
• Tick 級逐筆成交
• 加權平均價(VWAP)
• 價格變動百分比:1m / 5m / 15m / 30m / 1h / 4h / 24h
成交量數據:
• 原始成交量及其 MA
• CVD(Cumulative Volume Delta):累計主動買入量 - 累計主動賣出量
• CVD 多周期:5m / 15m / 1h / 4h / 24h
• Taker Buy/Sell Volume
• 成交量異常檢測(相對 MA 的倍數)
• 量價背離指標
持倉數據:
• Open Interest 絕對值
• OI 變化量:1h / 4h / 24h
• OI 變化率:1h / 4h / 24h
• OI 加權價格
• 多空持倉人數比
• 大戶持倉量占比
• 槓桿分布統計
資金費率:
• 當前 Funding Rate
• 預測 Funding Rate
• Funding Rate 歷史序列
• 累計 Funding(24h / 7d / 30d)
清算數據:
• 多頭爆倉量(USD)
• 空頭爆倉量(USD)
• 爆倉多空比
• 大額清算事件(單筆 > 100K)
• 清算熱力圖(價格區間分布)
• 累計清算:1h / 4h / 24h
資金流向:
• 機構凈流入(期貨)
• 機構凈流入(現貨)
• 散戶凈流入(期貨)
• 散戶凈流入(現貨)
• 大單買入/賣出(閾值可配置)
• 交易所凈流入/流出
• 鯨魚地址異動
訂單簿數據:
• 買一/賣一價格及掛單量
• 盤口價差(Spread)
• 深度快照:±0.1% / ±0.5% / ±1% / ±2%
• 買賣掛單不平衡度
• 大額掛單檢測
• 訂單簿斜率
技術指標:
• EMA:7 / 13 / 21 / 55 / 100 / 200
• SMA:20 / 50 / 100 / 200
• MACD:標準參數 + 自定義參數
• RSI:6 / 14 / 21
• Bollinger Bands:20 周期 2 倍標準差
• ATR:14 周期
• ADX / DMI
• Stochastic RSI
• OBV(On Balance Volume)
• Ichimoku Cloud
波動率:
• 已實現波動率:1h / 4h / 24h / 7d
• ATR 百分比
• 布林帶寬度
• 價格振幅(High - Low)
數據更新站點,API 已開放:
https://nofxos.ai/api-docs
調用示例:
GET /api/quant-data?symbol=BTCUSDT
返回:
{
"netflow": {
"institution": {"future": 1200000, "spot": -500000},
"personal": {"future": -800000, "spot": 200000}
},
"oi": {
"current": 450000000,
"delta": {"1h": 1.2, "4h": 3.5, "24h": -2.1}
},
"price_change": {"1h": 0.8, "4h": 2.1, "24h": -1.5},
"cvd": {"5m": 150000, "1h": 890000, "4h": -2100000},
"funding_rate": 0.0001,
"liquidation": {"long": 1500000, "short": 800000}
}
交易所 API 差異不只在數據端。限價單、市價單、止損單的參數格式,倉位精度,槓桿配置,各家不同。
NoFx 抽象統一執行接口,當前支持任意交易所市場:
策略層不需要關心底層交易所。
數據層和執行層之上,提供 AI 決策框架:
市場數據 → 特徵工程 → AI 推理 → 風控過濾 → 執行
支持的推理引擎:DeepSeek、Claude、GPT、Gemini、Qwen。
AI 在這裡不是預測漲跌,而是做結構化決策:
• 多維度市場狀態分析
• 候選標的篩選排序
• 倉位管理和風險評估
• 入場/出場條件判斷
輸出是結構化 JSON:決策、置信度、推理鏈(Chain of Thought)。每次決策的完整 context 全部記錄。
Regime 識別作為決策框架的模塊:
市場數據 → Regime 識別 → 策略路由 → AI 決策 → 風控 → 執行
AI 做具體決策時收到當前 regime 判斷作為 context。不同 regime 下,決策激進程度、倉位上限、止損寬度自動調整。
AI Trading 的瓶頸不在模型,在工程。
一個能跑的系統需要:穩定數據流、低延遲執行、完善風控、可追溯日誌、靈活策略配置。基礎設施不存在,模型再強也沒用。
市面上的 AI 交易產品大多是黑箱。用戶不知道 AI 在想什麼,不知道為什麼開倉,不知道風控邏輯。出問題無從排查。
NoFx 的設計原則:透明、可控。
• 完整 Chain of Thought 日誌
• 可配置風控(止損、倉位上限、槓桿限制)
• 開源,用戶可自己部署
• Web UI 調參,不需要改代碼
長期目標:AI Trading 的標準化層。
三個支柱:
第一,傳統量化的工程積累。訂單管理、風控引擎、回測框架、執行算法——幾十年量化交易沉澱的東西。沒有這些,AI 是空中樓閣。
第二,前沿 AI 的推理能力。LLM 在結構化分析、多因子綜合判斷、自然語言交互上的表現,傳統規則引擎做不到。但 AI 需要被正確約束和引導,不能讓它自由發揮去"預測市場"。
第三,嚴格的數學框架。Regime 識別、向量相似度、對比學習——可驗證、可解釋的方法。拒絕"AI 說買就買"的玄學。
技術只是手段。NoFx 的終極目標:AI + 量化的平權化。
現狀:量化交易門檻極高。要懂編程、懂金融、懂數據工程、懂風控,還要有資金接入機構級數據和執行通道。散戶被排斥在外。
NoFx 提供可視化的 AI 交易編排系統:
• 不用寫代碼。策略邏輯、風控規則、AI 參數,Web UI 配置
• 不用懂量化。預置策略模板覆蓋常見場景,調參數就行
• 不用自建基礎設施。數據、執行、風控、日誌,平台提供
• 完全透明。每次 AI 決策的輸入、推理、輸出,全部可查
一個從沒接觸過量化的人,應該能在 5分鐘內配置好自己的 AI 策略,並理解它在做什麼。
這不是降低專業性。是把專業能力封裝成普通人能用的工具。
Excel 讓每個人能做數據分析,不需要學 SQL。Figma 讓每個人能做設計,不需要學 Photoshop。
NoFx 讓每個人能編排 AI 交易策略,不需要成為量化工程師。
開源是必然選擇。基礎設施層必須可信、可審計。
過擬合:模型可能只是記住歷史 pattern,泛化能力存疑。需要 out-of-sample 驗證和滾動回測。
Regime 漂移:市場結構演化,歷史 regime 特徵可能不再適用。需要持續監控和定期重訓練。
識別延遲:regime 切換識別必然滯後。敏感度和誤報率之間取捨。
這不是預測聖杯。價值在於結構化的市場狀態描述,輔助策略選擇和風控。
不是看到"AI 交易"這個詞就往上靠,而是先問:AI 的計算本質是什麼?這個本質能遷移到金融場景嗎?遷移過來應該解決什麼問題?
答案是:向量相似度計算可以遷移,但目標不應該是預測漲跌,而是 regime 識別。
技術再厲害,如果只有專業量化團隊能用,意義有限。我希望做出來的東西,是一個完全不懂代碼的交易者也能上手的產品。
專業性和易用性不矛盾。專業性體現在底層架構和方法論,易用性體現在產品交互。把複雜的東西做簡單,比把簡單的東西做複雜難得多。
用戶的反饋驗證了這個方向:
• GitHub 兩個月 9500+ stars
• 一個半月內為 Binance 帶來 1800+ 純新增 KYC 首次交易用戶
• 實際使用用戶超過 9 萬人
• 交易量持續增長
這些數字說明市場確實存在這個需求:普通交易者想要專業級的 AI 交易能力,但不想花幾個月學量化編程。
NoFx 在做的事情,是把機構級的數據、執行、風控能力,封裝成任何人都能用的產品。技術服務大眾,不是技術服務少數人。
開源也是用戶導向的選擇。用戶要能看到代碼在做什麼,要能自己部署,要能根據需求修改。黑箱產品在金融領域沒有信任基礎。
後續 Regime 識別模塊驗證有效後,同樣會開源集成。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
上一篇
下一篇