區塊鏈

從第一性原理出發：從AI 底層邏輯到AI Trading

金色財經2026-01-05 16:00

作者：Tinkle 來源：X，@Web3Tinkle

一、大模型的底層邏輯

在討論 AI 交易之前，有必要把大模型的計算本質講清楚。

很多人把 LLM 當黑箱，覺得它"理解"了語言，能"思考"問題。實際上拆開來看，就是一套向量運算。

‌

【核心思想：用向量表示一切】

人類用詞彙和語法表達意義。機器不認識詞彙，只認識數字。

大模型的第一步，是把離散的 token（可以理解為詞或子詞）映射到連續的向量空間。每個 token 對應一個高維向量，通常是 4096 維甚至更高。

"今天" → [0.12, -0.45, 0.78, 0.23, ...]（4096 個數字）

"天氣" → [0.34, -0.12, 0.56, 0.89, ...]（4096 個數字）

這個映射是通過 embedding 表學習得到的。訓練過程中，語義相近的詞會被映射到向量空間中相近的位置。"國王"和"女王"的向量距離近，"國王"和"蘋果"的向量距離遠。

這不是人工設定的規則，是模型從海量文本中自己學出來的。

【核心計算：向量相似度】

有了向量表示，下一個問題是：怎麼讓模型知道詞與詞之間的關係？

Transformer 的答案是 Self-Attention 機制。

對於序列中的每個位置，模型會問一個問題：我應該關注序列中的哪些其他位置？

具體計算：

Q = X · W_q （Query：我在找什麼）

K = X · W_k （Key：我能提供什麼）

V = X · W_v （Value：我的實際內容）

Attention(Q, K, V) = softmax(Q · Kᵀ / √d) · V

Q · Kᵀ 是點積運算。兩個向量越相似（指向相近的方向），點積越大。這就是在計算：當前位置的 Query 和其他位置的 Key 有多匹配。

softmax 把這些匹配分數歸一化成機率分布。然後用這個分布對 Value 做加權求和。

結果是：每個位置都聚合了序列中與它相關的資訊，相關性由向量相似度決定。

【堆疊與非線性】

單層 attention 表達能力有限。Transformer 把多層 attention 堆疊起來，每層之後接一個前饋網路（FFN）：

FFN(x) = activation(x · W_1) · W_2

activation 是非線性函數（ReLU、GELU、SwiGLU 等）。沒有非線性，多層線性變換等價於單層，模型就沒有深度可言。

DeepSeek、Qwen 等模型用了 MoE（Mixture of Experts）架構：不是所有參數都參與每次計算，而是動態路由到部分專家網路。這是效率優化，不改變計算本質。

【輸出：機率分布】

經過 N 層處理後，最後一層的向量再乘以詞表矩陣，得到每個可能 token 的分數，softmax 歸一化成機率分布。

採樣或取最大機率，得到輸出 token。然後把這個 token 加入輸入序列，重複上述過程。這就是自回歸生成。

【各家模型的差異】

DeepSeek：MoE 架構，Multi-head Latent Attention 壓縮 KV cache，降低推理成本

Qwen：dense + MoE 雙產品線，SwiGLU 激活函數

Claude：架構未公開，推測是優化過的 dense Transformer

Gemini：多模態原生設計，圖像、音頻、文本共享 attention

GPT-4：傳聞 MoE，8 個專家每個 220B 參數

架構細節各異，但底層邏輯相同：

1. 把輸入映射到向量空間

2. 通過點積計算向量間的相似度

3. 用相似度加權聚合資訊

4. 堆疊多層 + 非線性變換

5. 輸出機率分布

沒有"理解"，沒有"思考"，就是高維空間裡的幾何運算。

這套邏輯能不能遷移到金融市場？下面展開。

二、大模型在"預測"還是在"識別模式"？

理解了上面的計算流程，一個關鍵問題浮出水面：

大模型到底在做什麼？

表面上看，它在"預測下一個詞"。給定"今天天氣"，它輸出"不錯"的機率最高。這看起來像預測。

但拆開計算過程，它實際在做的是：

1. 把當前上下文編碼成向量

2. 在參數空間中檢索與這個向量最匹配的模式

3. 輸出這個模式對應的機率分布

它不是在"預測未來會發生什麼"，而是在"識別當前輸入最像訓練數據中的哪種模式"。

區別在哪？

預測是對未知事件的推斷。識別是對已知模式的匹配。

大模型之所以有效，是因為自然語言有強統計規律。"我昨天去了"後面大機率是地點，"如果...那麼..."後面大機率是結果。這些模式在訓練數據中反覆出現，模型學會了識別它們。

當你問 ChatGPT 一個問題，它不是在"思考答案"，而是在"找到與你的問題最匹配的模式，然後輸出這個模式通常對應的回答"。

輸出看起來像預測，底層是模式識別。

【遷移到金融市場】

把同樣的邏輯用到金融市場，一個自然的想法是：

把市場數據編碼成向量，檢索歷史上最相似的模式，輸出後續走勢的機率分布。

聽起來可行。但這裡有一個根本性的問題：

金融市場的"下一步走勢"和自然語言的"下一個詞"，統計特性完全不同。

【語言 vs 市場：統計規律的強度差異】

自然語言的統計規律極強。

給定足夠的上下文，下一個詞的熵（不確定性）很低。"中華人民共和"後面幾乎一定是"國"。模型可以用很高的置信度輸出。

金融市場的短期走勢接近隨機遊走。

給定任何技術指標、基本面數據、鏈上數據，下一根 K 線漲還是跌的機率接近 50:50。信號被噪聲淹沒。

Pratas et al. (2023) 測試 LSTM 在 BTC 波動率預測上的表現：模型能產出更平滑的曲線，但對 large spikes 沒有捕捉能力。模型學到的是"均值回歸"這個弱模式，對真正重要的極端事件無能為力。

【非平穩性】

語言的統計規律相對穩定。"蘋果"的語義一百年沒怎麼變。

市場結構持續演化。2021 年有效的規律 2024 年可能失效。監管環境、參與者結構、流動性分布都在變。你在歷史數據上學到的模式，面對的是一個不斷變化的分布。

【對抗性】

語言生成沒有對手盤。你預測下一個詞是"吃"，沒人會故意讓它變成"飛"。

金融市場是零和博弈。任何被識別出的有效模式，都會因為資金湧入而被套利掉。市場在對抗所有試圖利用模式的人。

【結論】

大模型的能力是模式識別，不是預測。

在語言領域，模式識別的輸出看起來像預測，因為語言模式足夠穩定、足夠強。

在金融市場，試圖用同樣的方法"預測漲跌"會失敗，因為短期價格方向的模式太弱、太不穩定、太容易被對抗。

但這不意味著模式識別在金融領域沒有價值。問題在於：應該識別什麼模式？

三、換一個問題：Regime 識別

預測漲跌信噪比太低，但有一個相關問題信噪比高得多：

當前市場處於什麼狀態？

市場不是均質的，在不同 regime 之間切換：

• 低波動震盪：窄幅區間，方向不明

• 高波動震盪：劇烈波動但無趨勢

• 單邊上漲：持續走高，回調淺

• 單邊下跌：持續走低，反彈弱

• 流動性危機：急跌伴隨大規模清算

Regime 有持續性。趨勢行情可能持續數天甚至數周，震盪市也是。時間尺度上的 autocorrelation 比單根 K 線漲跌顯著得多。

Hamilton (1989) 的 regime-switching 模型開創了這個方向。Wang et al. (2020) 用 HMM 識別美股牛熊狀態，在 2008 金融危機和 2020 COVID 崩盤期間有效規避大幅回撤。

他們的 alpha 來源不是預測漲跌，而是在高風險 regime 降低敞口。

四、技術路徑：Market State Embedding

把 LLM 框架遷移過來：

LLM：token → 向量 → 相似度計算 → 輸出分布

這裡：市場狀態 → 向量 → 相似度計算 → Regime 分類

【Encoder】

目標：高維異構特徵壓縮成低維稠密向量。約束：regime 相似的時刻向量距離近，regime 不同的時刻向量距離遠。

參考 TS2Vec (Yue et al., AAAI 2022)，時序表示學習 SOTA，UCR/UEA 150+ 數據集上表現優異。

核心：hierarchical contrastive learning，多時間尺度對比損失，同時學 timestamp-level 和 instance-level 表示。

【訓練】

對比學習定義正負樣本：

正樣本：兩個時刻後續走勢相似

負樣本：兩個時刻後續走勢不同

也可參考 SoftCLT (ICLR 2024)，連續相似度替代硬標籤。

【輸出】

聚類法：歷史 embedding 做 KMeans/GMM，得到 K 個 cluster，人工解讀 regime 含義

檢索法：當前 embedding 檢索歷史 Top-K 相似時刻，統計 regime 分布

檢索法可解釋性更強，能輸出具體歷史類比。

五、對比傳統方法

【vs HMM】

HMM 假設觀測值服從特定分布（通常 Gaussian），狀態數預先指定。

神經網路不做分布假設，能處理高維輸入，能發現數據中自然存在的 regime 結構。

【vs 技術指標】

ADX、RSI、布林帶各自只捕捉一個維度，難以建模多因子交互，閾值人工設定。

端到端學習自動發現特徵組合，閾值數據驅動。

六、應用場景

識別 regime 的價值在於策略選擇和風險控制。

【策略匹配】

低波動震盪 → 網格

趨勢行情 → 趨勢跟蹤

高波動震盪 → 降倉位

流動性危機 → 空倉

【風險管理】

Wang et al. 研究表明，regime-switching 策略的超額收益主要來自在 adverse regime 降低敞口。

規則：識別到高風險 regime，倉位砍半或清倉。不追求抓每一波，但要避開系統性風險。

七、NoFx：AI Trading 基礎設施層

上面講的是方法論。落地需要基礎設施。

NoFx 不是"讓 LLM 預測漲跌"的產品。定位是 AI Trading 的基礎設施層。

【數據層】

加密貨幣市場數據極度碎片化。CEX API 格式各異，鏈上數據需要自己解析，衍生品數據分散在不同源頭。

NoFx 做的第一件事：異構數據歸一化，統一訪問接口。

價格數據：

• 多周期 K 線 OHLCV：1m / 3m / 5m / 15m / 30m / 1h / 2h / 4h / 6h / 8h / 12h / 1d / 3d / 1w / 1M

• Tick 級逐筆成交

• 加權平均價（VWAP）

• 價格變動百分比：1m / 5m / 15m / 30m / 1h / 4h / 24h

成交量數據：

• 原始成交量及其 MA

• CVD（Cumulative Volume Delta）：累計主動買入量 - 累計主動賣出量

• CVD 多周期：5m / 15m / 1h / 4h / 24h

• Taker Buy/Sell Volume

• 成交量異常檢測（相對 MA 的倍數）

• 量價背離指標

持倉數據：

• Open Interest 絕對值

• OI 變化量：1h / 4h / 24h

• OI 變化率：1h / 4h / 24h

• OI 加權價格

• 多空持倉人數比

• 大戶持倉量占比

• 槓桿分布統計

資金費率：

• 當前 Funding Rate

• 預測 Funding Rate

• Funding Rate 歷史序列

• 累計 Funding（24h / 7d / 30d）

清算數據：

• 多頭爆倉量（USD）

• 空頭爆倉量（USD）

• 爆倉多空比

• 大額清算事件（單筆 > 100K）

• 清算熱力圖（價格區間分布）

• 累計清算：1h / 4h / 24h

資金流向：

• 機構凈流入（期貨）

• 機構凈流入（現貨）

• 散戶凈流入（期貨）

• 散戶凈流入（現貨）

• 大單買入/賣出（閾值可配置）

• 交易所凈流入/流出

• 鯨魚地址異動

訂單簿數據：

• 買一/賣一價格及掛單量

• 盤口價差（Spread）

• 深度快照：±0.1% / ±0.5% / ±1% / ±2%

• 買賣掛單不平衡度

• 大額掛單檢測

• 訂單簿斜率

技術指標：

• EMA：7 / 13 / 21 / 55 / 100 / 200

• SMA：20 / 50 / 100 / 200

• MACD：標準參數 + 自定義參數

• RSI：6 / 14 / 21

• Bollinger Bands：20 周期 2 倍標準差

• ATR：14 周期

• ADX / DMI

• Stochastic RSI

• OBV（On Balance Volume）

• Ichimoku Cloud

波動率：

• 已實現波動率：1h / 4h / 24h / 7d

• ATR 百分比

• 布林帶寬度

• 價格振幅（High - Low）

數據更新站點，API 已開放：

https://nofxos.ai/api-docs

調用示例：

GET /api/quant-data?symbol=BTCUSDT

{

"netflow": {

"institution": {"future": 1200000, "spot": -500000},

"personal": {"future": -800000, "spot": 200000}

"oi": {

"current": 450000000,

"delta": {"1h": 1.2, "4h": 3.5, "24h": -2.1}

"price_change": {"1h": 0.8, "4h": 2.1, "24h": -1.5},

"cvd": {"5m": 150000, "1h": 890000, "4h": -2100000},

"funding_rate": 0.0001,

"liquidation": {"long": 1500000, "short": 800000}

}

【執行層】

交易所 API 差異不只在數據端。限價單、市價單、止損單的參數格式，倉位精度，槓桿配置，各家不同。

NoFx 抽象統一執行接口，當前支持任意交易所市場：

策略層不需要關心底層交易所。

【決策層】

數據層和執行層之上，提供 AI 決策框架：

市場數據 → 特徵工程 → AI 推理 → 風控過濾 → 執行

支持的推理引擎：DeepSeek、Claude、GPT、Gemini、Qwen。

AI 在這裡不是預測漲跌，而是做結構化決策：

• 多維度市場狀態分析

• 候選標的篩選排序

• 倉位管理和風險評估

• 入場/出場條件判斷

輸出是結構化 JSON：決策、置信度、推理鏈（Chain of Thought）。每次決策的完整 context 全部記錄。

【Regime 集成】

Regime 識別作為決策框架的模塊：

市場數據 → Regime 識別 → 策略路由 → AI 決策 → 風控 → 執行

AI 做具體決策時收到當前 regime 判斷作為 context。不同 regime 下，決策激進程度、倉位上限、止損寬度自動調整。

【為什麼做】

AI Trading 的瓶頸不在模型，在工程。

一個能跑的系統需要：穩定數據流、低延遲執行、完善風控、可追溯日誌、靈活策略配置。基礎設施不存在，模型再強也沒用。

市面上的 AI 交易產品大多是黑箱。用戶不知道 AI 在想什麼，不知道為什麼開倉，不知道風控邏輯。出問題無從排查。

NoFx 的設計原則：透明、可控。

• 完整 Chain of Thought 日誌

• 可配置風控（止損、倉位上限、槓桿限制）

• 開源，用戶可自己部署

• Web UI 調參，不需要改代碼

【AI Trading Layer】

長期目標：AI Trading 的標準化層。

三個支柱：

第一，傳統量化的工程積累。訂單管理、風控引擎、回測框架、執行算法——幾十年量化交易沉澱的東西。沒有這些，AI 是空中樓閣。

第二，前沿 AI 的推理能力。LLM 在結構化分析、多因子綜合判斷、自然語言交互上的表現，傳統規則引擎做不到。但 AI 需要被正確約束和引導，不能讓它自由發揮去"預測市場"。

第三，嚴格的數學框架。Regime 識別、向量相似度、對比學習——可驗證、可解釋的方法。拒絕"AI 說買就買"的玄學。

【平權化】

技術只是手段。NoFx 的終極目標：AI + 量化的平權化。

現狀：量化交易門檻極高。要懂編程、懂金融、懂數據工程、懂風控，還要有資金接入機構級數據和執行通道。散戶被排斥在外。

NoFx 提供可視化的 AI 交易編排系統：

• 不用寫代碼。策略邏輯、風控規則、AI 參數，Web UI 配置

• 不用懂量化。預置策略模板覆蓋常見場景，調參數就行

• 不用自建基礎設施。數據、執行、風控、日誌，平台提供

• 完全透明。每次 AI 決策的輸入、推理、輸出，全部可查

一個從沒接觸過量化的人，應該能在 5分鐘內配置好自己的 AI 策略，並理解它在做什麼。

這不是降低專業性。是把專業能力封裝成普通人能用的工具。

Excel 讓每個人能做數據分析，不需要學 SQL。Figma 讓每個人能做設計，不需要學 Photoshop。

NoFx 讓每個人能編排 AI 交易策略，不需要成為量化工程師。

開源是必然選擇。基礎設施層必須可信、可審計。

八、侷限性

過擬合：模型可能只是記住歷史 pattern，泛化能力存疑。需要 out-of-sample 驗證和滾動回測。

Regime 漂移：市場結構演化，歷史 regime 特徵可能不再適用。需要持續監控和定期重訓練。

識別延遲：regime 切換識別必然滯後。敏感度和誤報率之間取捨。

這不是預測聖杯。價值在於結構化的市場狀態描述，輔助策略選擇和風控。

九、關於我

做這件事的出發點是第一性原理。

不是看到"AI 交易"這個詞就往上靠，而是先問：AI 的計算本質是什麼？這個本質能遷移到金融場景嗎？遷移過來應該解決什麼問題？

答案是：向量相似度計算可以遷移，但目標不應該是預測漲跌，而是 regime 識別。

另一個出發點是用戶導向。

技術再厲害，如果只有專業量化團隊能用，意義有限。我希望做出來的東西，是一個完全不懂代碼的交易者也能上手的產品。

專業性和易用性不矛盾。專業性體現在底層架構和方法論，易用性體現在產品交互。把複雜的東西做簡單，比把簡單的東西做複雜難得多。

用戶的反饋驗證了這個方向：

• GitHub 兩個月 9500+ stars

• 一個半月內為 Binance 帶來 1800+ 純新增 KYC 首次交易用戶

• 實際使用用戶超過 9 萬人

• 交易量持續增長

這些數字說明市場確實存在這個需求：普通交易者想要專業級的 AI 交易能力，但不想花幾個月學量化編程。

NoFx 在做的事情，是把機構級的數據、執行、風控能力，封裝成任何人都能用的產品。技術服務大眾，不是技術服務少數人。

開源也是用戶導向的選擇。用戶要能看到代碼在做什麼，要能自己部署，要能根據需求修改。黑箱產品在金融領域沒有信任基礎。

後續 Regime 識別模塊驗證有效後，同樣會開源集成。

來源：金色財經

發佈者對本文章的內容承擔全部責任
在投資加密貨幣前，請務必深入研究，理解相關風險，並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。

暢行幣圈交易全攻略，專家駐群實戰交流

▌立即加入鉅亨買幣實戰交流 LINE 社群（點此入群）
不管是新手發問，還是老手交流，只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資，都歡迎入群討論學習！

▶ 前往鉅亨買幣找交易所優惠

讓加密貨幣幫你滾出年化30%現金流
掌握全球財經資訊點我下載APP

‌

文章標籤

金色財經加密貨幣虛擬貨幣 BTC

延伸閱讀

鉅亨講座

看更多

講座
公告