menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


科技

量化投資 做大數據潮的弄潮兒

鉅亨網新聞中心


摘要:

大數據技術的發展,使量化投資突破以往瓶頸、緊跟時代創新成為可能。如何深刻理解大數據的內涵,又怎樣在大數據背景下重新定位量化投資、把握兩者的關係從而展望未來,成為當下的一個重要課題。


大數據有4個v

若要談及大數據與量化投資的關係,那么首先我們要理解什么是大數據。大數據(big data)是指“無法用現有的軟件工具擷取、存儲、搜尋、共用、分析和處理的海量的、復雜的數據集合。”業界通常用4個v(即volume、variety、value、velocity)來概括大數據的特征:

1.數據體量巨大(volume)。截至目前,人類生產的所有印刷材料的數據量是200pb,而歷史上全人類說過的所有的話的數據量大約是5eb(1eb=210pb)。

2.數據類型繁多(variety)。相對於以往便於存儲的以文字為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置資訊等,這些多類型的數據對數據的處理能力提出了更高要求。

3.價值密度低(value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器演算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

4.處理速度快(velocity)。這是大數據區分於傳統數據挖掘的最顯著特征。根據idc的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2zb。在如此海量的數據面前,處理數據的效率就顯得尤為重要。

大數據,不止是量還是技術

大數據包括兩層含義:

第一層含義是指數據量,如上文所指,是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成為幫助決策者進行決策的的資訊。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中指出: 大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法。

同樣的,大數據技術的戰略意義不在於掌握龐大的數據資訊,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。因此大數據有這樣的第二層含義:大數據是一個與解決過去因技術限制和/或過高的成本而無法解決的業務問題所需的新型工作負載和基本技術相關的術語。

大數據不僅僅與數據量有關。它可能是數據量中等但數據種類(數據和分析復雜性)極高的數據。大數據分析的主旨在於:與數據量、數據速度和數據種類(可能包含復雜的分析和復雜的數據類型)的某種組合相關的分析工作負載。因此,大數據可能與結構化和多結構化數據相關,而不僅限於后者 。正因如此,大數據分析可能包含傳統數據倉庫環境,因為某些分析工作負載可能需要同時使用傳統平臺和針對工作負載優化的平臺來解決業務問題。大數據不能取代數據倉庫。實際上,數據倉庫是擴展分析環境的一個組成部分。 

從技術上看,大數據與云計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分散式架構。它的特色在於對海量數據進行分散式數據挖掘,但它必須依托云計算的分散式處理、分散式數據庫和云存儲、虛擬化技術。

大數據發展,量化投資新機遇

大數據按照來源的類型大致可分為三類:

1.傳統企業數據(traditional enterprise data):包括 crm systems的消費者數據,傳統的erp數據,庫存數據以及賬目數據等。

2.機器和傳感器數據(machine-generated /sensor data):包括呼叫記錄(call detail records),智慧儀表,工業設備傳感器,設備日志(通常是digital exhaust),交易數據等。

3.社交數據(social data):包括用戶行為記錄,反饋數據等。如twitter,facebook這樣的社交媒體平臺。

在以上分類中,金融數據屬於最為重要也是相對傳統的第一類,包括了交易數據和投資行為數據。一般而言,傳統上我們進行量化投資,使用的是這一類數據,但是隨著大數據技術的發展,越來越多的交易者和研究員開始使用以上三種類型數據中的一種或多種。這些數據反映了交易的參與者和相關者在交易行為之前的動機和交易過程中的行為,利用海量的數據基礎,使用概率論來進行分析,並進一步做出投資決策,是量化投資的一個發展趨勢。大量的實證表明,我們日常行為通過大數據技術處理可以被預測準確的概率達到93%一樣,人們的參與投資與交易的行為同樣可以被高度預測,過去的幾十年中,預測準確率無法有突破性的進展的一個重要原因,不是研究者的理論基礎缺乏,而是缺乏足夠的試驗數據材料。

這就好比航空工業中,雖然有發動機的理論基礎及設計圖紙,但是缺乏符合其強度要求的材料和適合的加工工藝一樣,量化投資作為一種方法論,雖然逐漸被人們所認可,但是缺乏足夠的數據來完全實證解釋相應的經濟及金融現象。同時采用抽樣統計的方法,也不能全面的反映市場輪廓,直到大數據技術的發展,使這一切都成為可能。

大數據之於量化投資的核心價值

那么,大數據在量化投資中的核心價值又是什么呢?考慮到量化投資的一般步驟是:1.事件數據化;2.描述塑模;3.實證分析;4.分析預測;5.規則塑模。我們認為大數據在以上的過程中,最大幫助是分析與預測行情發展的走勢。

有分析才能精準

我們先看分析方面,隨著計算機設備的小型化和無線網絡技術的發展,人們已經可以隨時隨地進行資訊獲取。然而不便之處在於,在獲取資訊的同時,我們往往要去考慮所篩選的資訊是否真正有用。大數據的發展將會解決這一問題,系統將會按照量化交易者的需求對資訊進行篩選整合,將有用的資訊精準呈現到交易者眼前。因此,數據分析已經滲透到證券和期貨行業與相應的業務職能領域,成為重要的生產因素。

大數據被認為是繼云計算、物聯網之后的又一大顛覆性的技術性革命,不過相對於云計算對數據資產的保管功能,大數據才是真正對於投資基金有價值的資產。投資及交易領域的發展天生就依賴於大量的數據分析來做決策,而如今正處於數據大爆發的時代,如何獲取這些數據並對這些數據進行有效分析就顯得尤為重要。特別是隨著移動互聯網的發展,資訊的傳輸日益便利,端到端的需求也日益突出,對於整個量化投資領域而言,大數據市場是等待挖掘的金礦,作為量化投資基金而言,可以說誰能掌握和合理運用大數據的核心資源,誰就能在接下來的技術變革中進一步發展壯大。

量化投資的大數據優勢:

雖然在最近的幾十年中,數據分析已經滲透到了量化投資領域,應用也越來越多樣化,但是單一的數據存儲和分析已經遠遠不能滿足交易者的發展需求,特別是處在高速發展中的衍生品交易領域。相較於傳統的共同基金,量化投資基金在數據資源、基礎資源、平臺資源以及專業技術支撐上擁有先天性優勢,所以在大數據價值的挖掘方面將會更有優勢。

量化投資的挑戰與嘗試:

憑借著對於市場的敏銳感知,一些量化投資基金早已在數據資源的積累和挖掘方面有所部署,他們通過蜘蛛程式抓取網頁上人們的注冊和身份資訊來構建人群的基本數據形態,同時還可以及時將人群的上網行為資訊補充進去,構建全方位多角度的數據模型。使用計算機根據這些已經獲得的資訊做出相應分析,智慧的分析市場中某一群體對當下經濟形勢的看法,實現數據的價值。特別是對於一些互聯網巨頭所主動提供的數據而言,涉及電子商務、地圖、遊戲、社交、搜尋等各個方面(如阿里目前的大數據分享計劃),所獲得的用戶資訊用戶軌跡資料就會相當的完整,分析的結果也更加準確。

但是就目前而言,在大多數量化投資基金中,所有的這些數據還沒有真正形成合力,還沒有充分發揮其真正的價值。有觀察者認為,數據的價值不在於數據的大小而在於數據的分析。要實現數據的真正價值,第一步就是將分散的數據資訊進行整合,按照基礎資訊、位置資訊、社交資訊、行為資訊進行歸納,這些資訊最終會成為人群在經濟活動和金融行為上的詳盡解釋,因為每一塊的數據不可能是一個孤立的整體,它必將是結構化的,這些數據之間有著千絲萬縷的聯系,只有充分理清后進行精確的應用,才能充分挖掘其中蘊藏著的巨大價值,供量化投資基金的決策者使用。

隨著大數據的發展,一些量化基金也越來越重視與那些掌握著大量數據相關的開發和應用的互聯網巨頭的合作,從而獲取更多的市場機會。對於掌握龐大數據資源的互聯網企業而言,對於大數據價值的挖掘,最根本的就是探索出大數據價值所對應的商業模式,並為此找到愿意為大數據買單的使用者,量化投資基金正是這一類理想的客戶群體。量化投資基金和互聯網企業對於大數據資源的挖掘不是簡單地充當數據存儲和搬運的角色,而是要在保證用戶數據資訊安全的前提下通過這些數據對用戶的行為和需求進行分析,以海量數據為基礎 ,提供高附加值的數據分析服務,形成核心能力,挖掘出大數據其中的真正價值。因此我們有理由認為大數據的核心價值在於分析,移動互聯網時代給了我們獲取海量數據的機會,有了完整數據資源的寶庫,量化投資基金可以通過高效的數據資源分析和利用,在復雜的交易市場環境中做出精準的投資決策,提高投資收益率。

用預測看破未來

大數據對於量化投資的第二個核心價值就是預測,我們知道世界杯期間各家科技巨頭利用大數據預測比賽結果,再現“章魚保羅”雄風。世界杯結束了但大數據預測還會繼續。從夜觀天象到氣象預報,從童話里的水晶球到今日的科技預言家,從地震云的傳說再到科學家猛攻的地震預測,人類一直希望能夠更早突破局限看穿未來。隨著資訊革命的深入,大數據時代的預測更加容易,人類的生活正在被大數據預測深刻改變。因此人們在談論大數據的采集、存儲和挖掘時,最常見的應用案例便是“預測股市”“預測市場行為”。

因此,大數據還擁有數據可視化和大數據挖掘的功能,對已發生的資訊價值進行挖掘並輔助交易決策。傳統的量化投資基金的數據分析挖掘在做相似的事情,只不過效率會低一些或者說挖掘 的深度、廣度和精度不夠。大數據預測則是基於大數據和預測模型去預測未來某件事情的概率。讓分析從“面向已經發生的過去”轉向“面向即將發生的未來”是大數據與傳統數據分析在量化投資領域的最大不同。

大數據預測行情的邏輯基礎是,金融市場每一種非常規的變化事前一定有征兆,每一件事情都有跡可循,如果找到了征兆與變化之間的規律,就可以進行預測。但是請注意,同傳統的數據挖掘一樣,大數據預測無法確定某件事情必然會發生,它更多是給出一個概率。

大數據在預測金融市場中具備以下幾個特性:

1、數據預測的時效性。預報粒度從天縮短到小時,有嚴苛的時效要求,基於海量數據通過傳統方式進行計算,得出結論時明天早已到來,預測並無價值。大數據預測應用特征對“時效性”有更高要求,譬如股市、實時定價,而云計算、分散式計算和超級計算機的發展則提供了這樣的高速計算能力。

2、大數據預測的數據源。金融市場價格預測需要收集海量交易數據,交易所承擔著收集,和整理這些數據的作用,但整套系統的部署和運維耗資巨大。即使是這樣,能夠收集到全市場數據和參與人的行為數據也是不可能的事情,在大數據之前鮮有具備這樣的數據收集能力。而互聯網則是隨時隨地、社會化和多設備的數據上傳,每一次演化數據收集的成本都大幅降低,范圍和規模則大幅擴大。交易所不再是數據收集的中心,客戶端及作為載體的移動終端(諸如手機)將把人群的資訊發送給采集中心,大數據被引爆的同時,大數據預測所需數據源不再是問題。

3、大數據預測的動態性。不同時點的計算因子動態變化,任何變量都會引發整個系統變化,甚至產生蝴蝶效應。如果某個變量對結果起決定性作用且難以捕捉,預測難上加難,譬如人為因素。大數據預測的金融市場恰恰是極不穩定的但有固定規律,諸如股市及衍生品市場。這需要預測系統對每一個變量數據的精準捕捉,並接近實時地調整預測。發達的終端網絡外加大數據計算能力讓上述兩點更加容易。

4、大數據預測的規律性。大數據預測金融市場與傳統的基於抽樣的預測不同之處在於,其基於海量歷史數據和實時動態數據,發現數據與結果之間的規律,並假設此規律會延續,捕捉到變量之后進行預測。投資領域本身便有相對穩定的規律,大數據預測才有機會得到應用。

暢想大數據未來

我們可以通過下面幾個應用來看到大數據的未來:

股票市場預測:英國華威商學院和美國波士頓大學物理系的研究發現,用戶通過谷歌搜尋的金融關鍵詞或許可以金融市場的走向,相應的投資戰略收益高達326%。此前則有專家嘗試通過twitter博文情緒來預測股市波動。

理論上來講股市預測更加適合美國。傳統上中國股票市場無法做到雙向盈利,只有股票漲才能盈利,但是目前已經有融券業務和股指期貨業務,可以允許部分有資格的投資者從事做空交易,這會改變一些游資利用資訊不對稱等情況人為改變股票市場的規律,因此中國股市不再是沒有相對穩定的規律而很難被預測,從而結束了一個對結果產生決定性影響的變量數據根本無法被監控的年代。

黃金價格的預測:我們可以通過下面的一個實例來看一下大數據在量化投資領域的另一個應用,就是通過krr回歸分析,來預測黃金未來的價格走勢。在過去的年代,因為缺乏高質量和海量的數據,人們無法預測某一個交易標的物的漲跌趨勢就波動率情況,這就意味著,僅僅透過過時的市場資訊,使用傳統的分析方法和傳播途徑進行交易,和在賭場里猜測下一張撲克是a還是k一樣不可靠和危險,進一步的是,既是你預測出某一范圍,比如是數字而不是花色,你也不可能將該結果推進到數字幾或者是花色幾。

首先,krr回歸分析的解需要全部的訓練集樣本。我們采用2003年1月1日到2013年6月29日的紐約黃金交易數據,建立一個約4000個訓練點的訓練集,每一個點都對應每日的黃金收盤價格,然后,我們再另外建立一個數組,里面包含我們要預測的下一個交易日的預測點。隨后我們創建訓練核矩陣,krr會隨機的將數據拆解成若干個大小相同的子集,然后對每一個子集進行獨立的krr估計,最後去的局部解的均值,進而進行全域預測。實際上,我們驚喜的發現。2013年6月30日的黃金的收盤價格,觀測值為1234.8,而觀測值(月均)為1192,預測值則分別是1230.2與1186(月均)。兩者的差距非常接近。這為量化交易者制定交易規則提供了有力的預測。

有關大數據與量化投資領域方面的暢想還有很多。綜上,我們已經能夠大致的描述出兩者之間的聯系及發展前景的輪廓。更為進一步的探討則歡迎到我們的恒生量化社區中與眾多的大數據與量化投資愛好者一同分享這一方面的前沿進展。

(本新聞來源:和訊網)

文章標籤



Empty