信息化程度很低的旅游行業意味著,數據不是一種 “大宗商品”。
一段時間之前,多如牛毛的游記,大部分時候只是滿足了分享者快感的文字,而沒有變成數據。后來沉淀了大量游記的平臺如窮游、螞蜂窩都開始想辦法把游記 “結構化”,變成能夠更廣泛應用的數據。
在旅游行業,可能最核心的數據就是 POI(興趣點),具有極強規則的、完整的、標簽極度碎片化的 POI 信息是這個行業里非常值錢的東西,也成為了諸如 TripAdvisor(貓途鷹)的核心競爭力。貓途鷹的 POI 信息幾乎是不可能對外大規模釋放的,第三方無論是購買、還是數據交換,都很難拿到完整的 TripAdvisor 的 POI 數據。TripAdvisor 開放的 API 接口,只能夠為第三方提供所有 POI 的評論信息。
境內在線旅游行業,持有境外 POI 信息主要有三撥(如有遺漏歡迎補充,大眾點評之類暫不考慮):
擅長以抓取方式收集并整理信息的一些創業公司,如口碑旅行、夢想旅行,妙計旅行;
基于 UGC 內容整理的 POI 信息:主要就是窮游;
自采 POI 信息的創業公司:游譜旅行、四萬公里。
之前我們和窮游負責大數據的 VP 張棋就這件事聊了聊,張棋坦言這是一個龐大的工程,迄今為止窮游覆蓋了 300 多個國家和地區,7000 多個城市和區域,包括了景點、美食等 POI 的數量已經達到了百萬量級。而隨著目的地信息的變化,這些 POI 必須持續更新,除了基礎信息之外,評論也在隨之更新。
張棋介紹,最初做 POI 的方式是通過 “網友貢獻 + 編輯審核” 的方式,以比較粗的維度劃分國家、地區、城市,然后盡量保證各個維度下面都有相應的 POI 信息做到 “該有的地方都有”。而第二期的做法是 “掘金”,一直持續到現在,通過 “運營編輯 + 算法支持” 的方式:編輯給大致的框架,例如什么算是優秀內容,以人工做范例(在長游記中找到幾張圖和一段話),然后技術團隊通過數據建模和算法,用文本挖掘的手段覆蓋所有內容,把結果填充到 POI 和目的地的架構中。
在整個窮游收集 POI 的過程中,除了根據論壇的內容做篩選和挖掘以及用戶主動提交之外,也有一些外部數據源做實時不斷的更新,例如大巴車的時刻表。這一點上,妙計也用的相應的方式,從而保證動態的行程規劃是可行的——如果行程助手讓你去搭乘巴士,而巴士停運了會怎么樣?
在這里張棋分享了一些窮游的做法,工作節奏上他們會每一段時間重點攻克一個主題,先是酒店,然后是餐廳。在文本挖掘上,窮游除了抓取文字之外還會抓取相應的圖片,張棋坦言這里沒有通用且完美的解決方案,只能不斷的通過運營編輯反饋機器的抓取結果,不斷提高覆蓋度,爭取少漏掉一些重點信息。
通過不斷的外部數據源更新、用戶提交和內部挖掘,窮游的 POI 信息維度已經超過了 100 個,主要可以分為兩類,一類是屬性維度,以清邁女子監獄按摩店為例,包括了中文名、當地原名稱、英文名、地址、經緯度坐標、平均價位等;另一類是標簽屬性,也可以理解為 “屬于哪一類”,休閑、刺激、適合什么人群、親子或單身等等。
在保證 POI 覆蓋度之后,POI 的另外一個要點是標簽體系:一個 POI 都需要標簽?標簽需要多細化的顆粒度?這都是需要考慮的問題。一套成熟的標簽體系能夠極大的提高用戶篩選的效率,自然也會提高轉化率。
以酒店為例,窮游的運營編輯會提供諸如 “交通”、“設施”、“餐飲”、“服務”、“干凈衛生”、“漢語” 等維度,然后機器根據這些語義做抽象出相關內容,做主題挖掘。當用戶評論或游記中有描述命中了這個主題,機器就會放進 “池子” 做第一輪的篩選。在這個 “初選” 的池子中,機器會為每個話術賦值,然后根據權重得出最終結果。當然,餐廳就會有不同的維度,景點也有不同。
* * *
POI 的價值毋庸置疑,如上面所說,妙計和窮游都在多個維度豐富自己的 POI 信息,尤其是動態更新的信息,以保證智能生成的行程規劃是切實可行的。張棋說,行程助手就是 POI 信息的串聯,一天可能就涉及 50-70 個 POI。如果不能夠保證豐富度和準確度,整個行程助手是缺乏價值的。
而進一步挖掘,在商業化的路上 POI 是重要的連接機制(我們之前在討論游譜旅行的時候也說過)。與游譜旅行的創始人李小堅相似,張棋也認為,內容向商品的轉化需要 POI 作為載體——當用戶瀏覽景點信息的時候,如果有對應商品,直接就可以完成預定。“這也是窮游預定轉化上很重要也很成功的嘗試。 ” 張棋說。
此外,在目的地的智能推薦上,如果沒有準確實時的 POI 信息,推薦就可能是 “不靠譜的”,例如清邁有 “周六夜市” 和 “周日夜市”,僅在當天開放,而如果推薦周一前往,就太不智能了。
在 POI 的基礎之上,很多玩家都在嘗試智能推薦,這也是旅游進入移動端時代的一大想象空間——基于用戶所在的地理位置和用戶畫像,隨時做智能推薦,從而大幅提高轉化率。之前有一些創業公司講過相似的故事,但迄今還沒有人實現。
沒實現的原因也不難理解,沒有很大的用戶基數,用戶畫像的準確度就會打折扣,自然也會影響推薦的準確性;另一端,如果沒有優質的 POI 數據庫,推薦的都是老套路,用戶也不會喜歡。大平臺如阿里旅行,可以基于用戶在阿里其他平臺(淘寶、天貓)的購買行為做智能推薦,也還沒有到達行中、實時的級別。
事實上,在一些數據交易平臺或數據抓取公司那里,用戶畫像是可以獲得的,但我個人了解到,用戶畫像的準確程度,以及關于這個用戶的信息維度,其實并不完全適合旅游行業——大部分關于用戶的畫像集中在其日常購買、金融理財等層面,通過這些層面的數據推導至旅游行業,準確性自然會降低。
作為擁有數千萬出境游注冊用戶的窮游,從 2011年 開始積累用戶的訪問和點擊行為,打算為日后的智能推薦和精準營銷做準備。張棋介紹,窮游會格外關注 “平時生活在哪里、關注的旅行信息是什么、潛在目的地是什么、處于旅行周期的什么階段” 等信息。之后窮游把用戶分為:行前觀望、行前準備(多次看多次買,可能推翻之前的選擇)、即將出發(開始購買輕量級的商品例如 WIFI 或目的地商品如 CityWalk)、行中、回來等階段,匹配相應的產品。張棋說,窮游目前格外關注出發前一兩天的用戶,通過其酒店預訂行為,重點推送相應的輕量級商品。
張棋坦言,精準的智能推薦可能會讓轉化率呈 10 倍的改善,而最大的挑戰在于,必須將用戶畫像和 POI 信息都實現高顆粒度,才能做準確的匹配——這里的前提是有這些數據。
我們了解到,包括阿里旅行在內的在線旅游玩家都在尋求高品質的 POI 和用戶畫像數據。這可能不是一家企業的核心競爭力(在數據上的應用層面才是),但應該能構筑起一些壁壘。當各家都在構建自己的 POI 數據庫的時候,重復勞動是不可避免的,這里也許有合作共贏的空間。
更值得關注的是,誰能依托自己的實力(這可能是用戶基數、可能是分銷實力、可能是對旅游行業的理解,行業里可能還沒有定論)為 POI 數據制定發布規則,反而可能去爭奪制高點。