這篇來自 FreeS 的 Ben Li 同學對中國互聯網投融資數據的一個分析報告,以拋磚引玉的形式放出來,希望能給各位喜歡數據分析的朋友一些啟發。當然我們更加希望能和各位做數據分析的一起,在下面的評論里討論后續相關的關于創投圈這一塊可能的數據分析的方法和方向。
Ben Li 同學是我們FreeS的數據分析大牛,來自美國南部哈佛 Emory University,地點在亞特蘭大,佐治亞州。他的知乎ID是: https://www. zhihu.com/people/bigben-48
言歸正傳:下面來自于他的文字:
Viktor Mayer-Sch nberger在《大數據時代》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)一書中提出了關于大數據的 3 個特征(原則):1: more, 2: messy, 3: correlation. 在中譯本中被詳細的闡釋為“不是隨機樣本而是全體數據”;“不是精確性,而是混雜性”;“不是因果關系而是相關關系”。這 3 個原則引起了相對大的質疑與爭議。本文無意去討論這幾個原則的是是非非,但我們認為這三個特征很好地概括了相當一部分數據科學話題所處理數據的特征。因而本文以這三個特征為文眼,引出我們對公開的初創企業投融資數據的第一批分析結果。
1. More
我們抓取了IT桔子上截止2016年3月的全部數據。如下圖所示,2010年之后,融資開始進入上升通道, 2014開始爆炸式增長。
融資越來越多,數據也越來越多。但是在進一步做各種各樣的分析,畫出各種各樣fancy的圖表之前,我們需要來看看我們所獲取的數據是否足夠的“More”,多到能很好的刻畫出總體(population)數據的特征。如果不能確保這一點,之后所有的分析結果很可能都是靠不住的。
按照36Kr的數據( http:// 36kr.com/p/5044404.html ),2015年共完成5853筆融資。這里我們在2015年共有4844筆融資數據,占(82.76%)。即使考慮到數據缺失等因素,我們所分析的數據也應該能超過整體數據的三分之二,因此我們認為我們的數據是能夠在一定意義上代表總體的。當然我們的數據很可能存在嚴重的sampling bias。即我們的數據會包含更多更準的互聯網企業數據,而更偏傳統或者線下的企業的數據則可能更少、誤差更大。我們暫時不去深究潛在的selection bias,用我們手里的數據來一窺整體的特征。
比如, 融資和月份的關系
我們先來看一看融資和月份的關系,這里主要是顯示一點基礎的數據關系,并不是為了解釋。如下圖所示,2011到2013年具有非常鮮明的“兩頭大,中間小”的特征。一月份時融資筆數達到一年的最高峰,二月因為過年等原因跌到一年的最低值,之后一整年都在較低位置徘徊,直到年底(12月份)融資筆數開始回升。
2014年:除了“兩頭大,中間小”的基本特征外,8,9月份也出現了一個小峰值,并且在14年12月出現了最近幾年里最紅火的一個“12月”(14年當時的融資情景最為火爆)。這種紅火的趨勢在15年一月繼續推高。
2015年:在“資本寒冬”警告不斷的2015年,在年初按照規律出現“峰值一月”和“谷值二月”之后,年終的融資筆數不斷走高,直到7月達到了整個2015年的最高值(大約是資本寒冬的警告讓更多的創業者寧愿做出降低估值等讓步也要迅速完成融資?)。下半年,融資數據一路走低,直到12月也沒有出現習慣性的回升。然而單獨看2015年的數據,在這“寒冬”的2015年全年融資筆數仍然比2014年多了56%。下半年的疲軟很難說是年中的提前透支還是“Winter is coming”。
2016年:我們繼續看2016年的前三個月數據,確實讓人感受到了凜冬的寒風,2016年前三個月的數據已經跌落到2014年初的水準。
2. Messy
所謂“Messy”,更多指的是在大批量獲得數據時,被迫犧牲的精確性。又多又好(精準)的數據當然是最完美的。但是當我們批量獲取數據時,往往不可避免的會引入一些不精準或是缺失的甚至是錯誤的數據。而龐大的數據量又使得人工逐個確認成為不太現實的選項。
而“Messy”恰恰是我們所獲取數據的一個典型特征。我們僅考慮2011年到2015年間的D輪前(不包括D輪)的融資數據。 在10128筆交易中,融資額度未透露或模糊化處理的高達6461筆(63.79%) 。詳見下表所示:
即使不考慮這些模糊的融資額度,融資額里的“水分”也足夠讓這些融資額的數據messy到沒有任何價值。但所謂“大數據”之“大”,有一個好處就是當這些messy的數據足夠多,并且messy的有一定規律時,我們仍然能夠從中找到一些規律性的特征。進一步地, 如果我們用部分公司的“招股說明書”的數據反過來修正,也有可能獲得融資額度更好地估計(本文暫不涉及這一部分)。為避免不同時間匯率換算帶來的影響,我們暫時只考慮所有人民幣交易。并且我們把數千萬,數百萬均轉換成對應的最小值,即一千萬,一百萬等。下圖給出每一年按月份融資總額的分布:
我們可以看到總融資和融資筆數(前一張圖)的趨勢是基本一致的(這里的“一致”具體指融資筆數越多,總融資額越大,整體表現出較強的線性關系)。這就啟發我們直接比較對應的平均融資額:在下圖的平均融資額上我們可以看出,不同年份不同月份的值是比較穩定的。在這個意義上我們可以下結論,11年到15年的融資額“水分”并沒有明顯增加。雖然我們暫時無法估計這個“水分”的比重(業界一般說來是 乘三 或者 乘以五),但只要水分的比例是比較穩定的,融資額之間的相對關系保持穩定,我們就能夠進行進一步的數據分析。當然我們看到2015年最后兩個月的平均融資額相對比較異常(紅色圈內數據),有可能是融資額的“水分”突然增加了。而黃色圈內的三個數據點是孤立出現的峰值,除了在這短暫的一個月內融資額”泡沫“激增之外,更大的可能是這幾個月內有一筆或多筆融資額極大的離散點(outlier),推高了平均值。當然,這些“可疑點”的具體成因還需要具體分析。但這些“可疑點”的存在并不影響整體上平均融資額較為穩定的結論。
3. Correlation
我們最終關心的是因果關系。雖然Causal inference(因果推斷)已經發展了很多年,但是在實際中,我們往往很難去判別事務間是否具有因果關系,或者具有怎樣的因果關系。而數據中的相關關系很容易判別,所以實際運用中人們往往退而求次的先去找到相關關系。 用相關關系作為起始點進一步去探求因果關系 。甚至在很多應用中,相關關系已經足夠能夠幫助到最終目標的實現或提升。因而作為數據分析的起點,我們也先識別出幾組相關關系。
在進入具體的定量分析(假設檢驗,回歸分析)之前,我們先簡單的畫幾張圖來看看行業和融資數目,融資金額之間的關系。看看所謂的“風口”效應在數據上有沒有體現。我們將所有交易分為了16大類:
1. 廣告營銷(Advertising and Marketing)
2. 汽車交通(Automobile Traffic)
3. 電子商務(E-commerce)
4. 教育(Education)
5. 企業服務(Enterprise services)
6. 金融(Finance)
7. 游戲(Games)
8. 硬件(Hardware)
9. 醫療健康(Healthcare)
10. 本地生活(Local Life Services)
11. 移動互聯網(Mobile Internet)
12. 房產服務(Real Estate Services)
13. SNS社交網絡(SNS)
14. 文化娛樂體育(Sports Entertainment)
15. 工具軟件(Tool Software)
16. 旅游(Tourism)
下面第一張圖分年份畫出了各行業內融資筆數。我們可以注意到一些有趣的現象:
如上圖:2015年整體融資數目大幅增加,但是移動互聯網的融資筆數卻下降了超過50%;而旅游這個門類更是降為2014年的約四分之一。
如上圖:每個年份各行業融資百分比,通過百分比的調整,能夠對五年的趨勢進行更直觀的對比。比如我們可以看到,文化娛樂產業從11年,12年約13%的比例降到了13,14年的4%左右,但是在2015年又回升到了10%以上。相比2014年,電子商務,金融,本地生活類的融資筆數都有顯著增加。未來我們還將結合新聞媒體報道,百度指數等,進一步探究媒體口中的“風口”和融資中的“風口”的聯系與區別。
最后,我們展示一下我們用雷達圖(八卦圖)來比較基金的一個小嘗試。我們使用了IDG資本,紅杉資本中國,經緯中國,真格基金四家基金在2011年到2015年間被IT桔子收錄的D輪之前的投資。下面兩張圖分別使用絕對投資筆數和投資筆數占基金總投資筆數的百分比來刻畫了四家基金在16個領域內的投資情況。我們可以看到IDG在電子商務,廣告營銷等領域進行了很多投資,然而在工具軟件以及健康醫療領域內幾乎沒有投入,在教育上也投入不多。與之對應的是,紅杉資本在健康醫療領域,真格基金在教育以及工具軟件上都進行了大量的投資。
4. To be continued
關于以上這些圖的解讀還有很多。我們在這不再一一贅述。這些圖表自身的解讀還可以有很多。同時每張圖也都可以有很多不同的變形和擴展。當“早期投資數據量很小,水分很大,準確性很低”成為很多人的共識,從早期投資數據中挖掘出金礦甚至鐵礦都好像成為了天方夜譚。這篇文章的目的更多是來拋磚引玉,希望能從這里開始,一步步從這有限的數據中挖掘出有價值和意義的內容。如果您有任何建議或者想要挖掘某些特定信息的需求,歡迎評論。
拋磚引玉,歡迎各位的反饋和評論。
原文鏈接:https://zhuanlan.zhihu.com/p/21389632?utm_source=tuicool&utm_medium=referral