利用互聯網金融大數據構建選股模型,正成為A股市場的一股新潮流。
10月20日,廣發基金與百度公司合作開發的廣發中證百度百發策略100指數基金將啟動發行,這是業內首只跟蹤具有互聯網基因指數的指數型基金產品。
計劃推出互聯網基因指數產品的還有南方基金管理有限公司。
“跟蹤大數據指數的基金產品方案將于近期正式申報監管機構,預計年內發行跟蹤i100指數的基金產品。”南方基金產品開發部副總監魯力透露。
據21世紀經濟報道記者采訪了解,除廣發、南方基金外,業內還有基金公司的量化投資部和專戶部在研究“大數據”的量化策略。
此外,券商研究所的金融工程團隊同樣在挖掘“大數據”的投資機會。其中業內的代表為長江證券金融工程團隊,他們早在年初即根據新浪財經新聞數據構建新聞選股模型。
大數據的魅力
利用互聯網大數據挖掘股市的超額收益機會正成為近期基金業的一股新潮流。而動作較快的當屬廣發基金和南方基金這兩家基金公司。
其中,廣發基金聯合百度公司、中證指數公司開發百發100指數,南方基金則攜手新浪財經、深證信息公司推出了i100指數和i300指數。
基金公司競相開發大數據指數的動力在于,基于大數據篩選出來的組合,大幅跑贏現有的指數基金。
中證指數公司提供的數據顯示,自2009年至2014年6月30日,百發100指數的累計收益率達到545%。同期,中證500、中證全指、滬深300指數的收益率分別為102%、56%、19%。
歷史收益源自模型樣本的模擬測算,外界對其收益率或許存有疑問。而百發100指數產品在模型樣本外的實盤數據,同樣大幅跑贏主流指數。
廣發基金量化投資部研究員季峰向記者介紹,6月20日開始,百發100指數進入實盤運行階段。自此至10月8日,百發100指數實現的累計收益率達到43.33%。同期,滬深300指數、上證指數和創業板全指的收益率分別只有16.52%、17.74%和17.94%。
i100等權重指數和i300等權重指數的歷史收益率,同樣凸顯出大數據的優勢。
自2010年1月29日至2014年7月31日,i100和i300的累計收益率分別達到222.40%和141.58%,遠高于同期創業板指數34.45%的累計收益,更高于中小板指數-8.95%的累計收益率。
南方基金量化投資部總監劉治平介紹,南方新浪大數據指數自8月開始正式進入模型樣本外運行。其中,i100等權重指數在8月和9月份實現的月收益率分別為10.93%、15.63%。這意味著該指數在兩個月期間的收益率達到26.56%。
券商的研究團隊同樣在挖掘“大數據”帶來的投資機會。其中,長江證券金融工程團隊自年初即建立新聞選股模型,自1月12日開始樣本外跟蹤。
長江證券金融工程主管范辛亭發布的研究報告顯示,1月22日至8月15日,新聞選股模型累計的絕對收益率達到52.45%,超越滬深300指數39.44%,超越中證500指數30%。
招商證券金融工程高級分析師夏瀟陽利用深交所互動易披露的調研信息,構建中小板創業板調研組合。實盤跟蹤的結果顯示,自年初至9月30日,該調研組合實現的累計收益率為29.31%,跑贏中小板指數14.91%,超越創業板指數的幅度是8.53%。
引入互聯網基因
無論是長江證券、招商證券構建的選股模型,還是廣發基金、南方基金推出的大數據指數,其共同點在于引入網民對個股的搜索大數據作為選股因子。
“百發100指數的原理是在傳統指數模型的基礎上,增加百度大數據的搜索因子,相當于將投資者即將發生的行為提前納入指數指標中。”廣發基金數量投資部總經理陸志明如是表示。
百發100指數的參與開發者、廣發基金數量投資部研究員季峰介紹,百發100的模型也叫投資者綜合情緒模型,它相當于一個超大的數據熔爐,將財務因子、動量因子、搜索因子等幾類數據做多維度分析,使其在高維空間發生化學反應。
“利用百度平臺數據,對樣本空間的股票分別計算最近一個月的搜索總量和搜索增量,分別計為總量因子和增量因子。”季峰介紹,百度金融大數據,從某種意義上說是度量投資者情緒的量化方法之一,可用以反映投資者的投資意愿或預期。
“百發100指數的創新之處在于,網絡搜索量成為選擇成份股的影響因素,指數的構建利用了百度在搜索領域的強勢資源,具有顯著的互聯網基因。”眾祿基金研究中心研究員廖帥說。
中證指數公司網站披露的信息顯示,百發100指數的選樣方法是按照綜合財務因子、綜合動量因子和搜索因子計算的綜合評分降序排列,選取排名前100名的股票作為百發100指數的成份股。
其中,綜合財務因子涵蓋凈資產收益率、資產收益率、每股收益增長率等8個財務因子。綜合動量因子是計算最近一個月的個股價格收益率和波動率,得到風險調整后的動量指標。按照其大小從高往低排列,排在前30%的記為動量因子,后30%則記為反轉因子。
南方新浪財經大數據的選樣方法中同樣引入國內第一大門戶新浪網的大數據。
“i指數的選股因子包括財務因子、大數據因子和市場驅動因子。”南方基金權益投資部總監史博說,大數據因子涵蓋了新浪財經下的頁面點擊量、微博的正負面文章、新聞報道影響。
此外,財務因子包括最新市盈率PE、凈資產收益率ROE、年度營業收入和凈利潤增長率以及他們的變化預測。市場驅動因子則是指股票近期換手率、波動率、價格變化率、成交量變化率。
早在南方基金之前,長江證券的金融工程團隊就利用新浪財經的數據構建了新聞選股模型。
“我們通過對新浪財經的數據,選取新聞關注度躥升最快(周點擊量增速最快)的排名前50的股票,剔除有壞消息的公司,構建一個50只個股的選股組合。”范辛亭指出,新聞選股模型的核心是選取近期點擊量有較大提高的個股構建組合,以求尋找新聞熱度所帶來的預期變化。
雖然都是引入互聯網金融大數據作為選股因子,但不同機構構建的成份股還是有明顯區別。
中證指數公司披露的信息顯示,百發100指數首期100只成份股中,樣本股在各個市場板塊相對比較分散。其中,中小板股票數量最多,達到39只。其次為上證主板31只,深證主板和創業板各占25只和5只。
從行業分布看,百發100指數的成份股中前五大行業是工業、可選消費、原材料、金融地產、信息技術,合計占指數的權重比例達到85%。相比滬深300指數,其金融地產配置比例較少,信息技術和可選消費等明顯超配。
根據財務因子、大數據因子和市場驅動因子,i指數選出的成份股主要分布在原材料、信息技術、工業與可選消費四個行業。其中,i100指數、i300指數在上述這四大行業的權重占比分別為73%與71%。
顛覆選股邏輯
當基金公司和券商研究將互聯網金融的大數據作為選股因子引入模型,代表著資產管理機構在指數投資上重構選股邏輯。
“傳統指數編制依賴的是市值規模、成交金額、財務及估值等傳統因子。它最大的缺點是采用過去3個月或6個月的數據去預測未來一期的收益,參數對歷史數據有嚴重的依賴。”陸志明指出,利用百度數據融入了投資者在投資決策前的行為規律,對未來的市場投資規律有一定的預測作用,其預測效果好于傳統的來源于歷史數據的因子數據。
而與傳統指數不同的是,百發100指數的編制思路是跳出行業、板塊的限制,從全市場中尋找超額收益的機會。
“我們希望通過財務數據、動量數據和百度大數據,試圖去發現市場未來一個月輪動的熱點。”季峰認為,百發100指數選股模型的特點是,它所挑的股票是契合未來市場或行業輪動熱點,且基本面良好,未來有一定成長空間的價值型股票。
南方基金和新浪合作推出的大數據指數也是采用相同的思路。
“利用大數據投資向市場廣度要超額收益。”南方基金權益投資部總監史博根據wind數據統計發現,自2005年至2014年,即便全市場平均收益率為負數,依然能找出超越市場30%的股票。
以2014年年初至8月22日為例,wind全A的收益率是14.12%,超越市場30%的股票個數達到535只,占全市場股票數量的比例是22%。其中,這批股票的平均收益率達到74.63%。
在業內看來,基金公司量化投資部引入互聯網大數據,目的是將這類超越市場平均收益的標的挖掘出來?;诖?,與傳統指數半年調一次樣本股不同的是,百發100指數和i100、i300指數其樣本股的調倉頻率均設置為每個月一次。
“每個月大概有50%的成份股會發生調整。”季峰介紹,百發100指數以每個月第三周的周五進行樣本調倉。自6月20日至今,調整了三次樣本。其中,每個月約有一半的成份股會被替換。
季峰坦言,相比其它的指數,百發100指數成份股的調整比例相對偏高。但他認為,指數樣本的調整頻率、幅度遠超傳統指數,目的是更好地把握市場的輪動行情。
深圳證券信息有限公司邢精平博士提供的數據亦顯示,自2013年7月1日至2014年6月1日,南方新浪大數據的近12次樣本股調倉中,i100指數平均每次調整41只股票,i300指數平均每次調整95只樣本股,月度平均調倉比例分別為43.5%和34.5%。
在業內看來,近兩年來,國內市場具有明顯主題輪動的特點。基于“大數據”開發的策略指數非常適合主題輪動的市場行情。
不過,也有研究機構提出,引入大數據的模型能否經受考驗,還有待時間驗證。
“百發100指數和i系數指數的構建在考量個股價值的同時,也積極地把握市場的關注熱點和輿情,這樣的出發點對爭取良好表現是有益的。”廖帥認為,利用互聯網基因構建的數量模型是否足夠合理,還有待時間給出答案。