當然是靠剪輯師。再波瀾不驚的平淡故事,經過剪輯師的惡魔之手輕輕一點,立刻就能變成一場立場明顯、撕逼激烈的年度大戲。
甭管這惡魔剪輯的手段合不合適,能把流量、話題揣進兜里,這就是成功。要真惹出來什么亂子,微博道個歉就完了。
這充分說明了一名剪輯師的重要性。
在各類型影視作品都在嘗試剪輯新形式時,我們忽然發現體育視頻剪輯居然萬年不變,表現出了被科技遺忘的深深的失落。不信你找個六十年代的籃球影像片段和如今的比較一下,除了畫面質量差點,還有啥區別?
終于要改頭換面了。如果你看籃球的話就該知道,2018年總決賽剛剛落幕,勇士隊毫無懸念地再次捧杯。但你可能不知道的是,今年的總決賽系列中的很多視頻剪輯并不是人來完成的。比如肖華宣布了總決賽MVP歸屬之后,騰訊體育NBA在短時間內就播放了杜蘭特從新秀到獲得總決賽MVP的奮斗歷程。那是誰做的?“IBM AI Vision視覺大腦”。
杜蘭特11年精彩回顧
不僅如此,總決賽期間每場比賽的球星45秒剪輯,也是由“IBM AI Vision視覺大腦”完成的。
此次騰訊體育NBA轉播中,騰訊體育與IBM跨界合作,利用IBM中國研究院開發的“IBM AI Vision視覺大腦”技術,為籃球賽事增加看點。作為在人工智能領域深耕多年并有深厚技術積累的科技巨頭,IBM也讓我們看到了體育視頻剪輯乃至整個影視行業革新的新前景。
球迷的視線這么貴,每一幀都該是魔法
體育直播的歷史,也是一部技術的進步史。從最開始的用收音機聽直播,到后來的看電視直播、網絡PC端的直播,再到今天更多的移動端觀看,直播方式的野蠻生長,也給球迷們帶來了更豐富的視聽體驗。作為一項全球頂級賽事,NBA在九十年代經過大衛·斯特恩的大力推廣之后,如今在中國已經擁有超過一億的籃球迷。收看直播和點播剪輯整理后的相關視頻,已經成為了籃球迷們的日常,刷新文字的原始時代已經一去不復返了。
騰訊體育在2015年獲得了NBA在中國的獨家數字轉播權之后,也獲取了海量的NBA歷史影像資料。三年來,騰訊體育給這項籃球賽事直播帶來的改變是顯而易見的。卡頓、清晰度不高、球迷參與度低等問題一一得到解決,并且其還利用這些影像資料策劃了大批的視頻專輯,讓年輕點兒的球迷小伙伴們探知那些自己從未經歷過的上古時代。盡管如此,仍然有兩大挑戰不得不提。
1. 視頻剪輯師的挑戰。只要料夠多,每一個敬業的視頻剪輯師都想做一道可口的視頻大餐給球迷朋友。騰訊體育NBA最不缺的就是料,69年超過21億秒的視頻資料往剪輯師這兒一撂,剪輯師亟需創新點!要把這21億秒的視頻按照球星、風格、動作類型、絕殺等無數個標簽進行細分的話,那可能真的要下代見了。聽起來是不是有點悲壯?是真可謂求之不得,寤寐思服……
2. 球迷的挑戰。常規的體育媒體都是通過編輯的視角來向球迷單向輸出內容。球迷的口味千奇百怪,但剪輯師限于有限的時間和精力,制作的內容往往集中在某幾個球星或某幾種類型,球迷們別無選擇,只好鍋里有什么就吃什么。在這種情況下,球迷們的一些個性化需求往往難以實現。同樣是求之不得,寤寐思服……
一方在拼命地輸出視頻,一方卻表示吃不飽,剪輯師和球迷之間的斷層也就成為了視頻剪輯中亟待解決的難題。“IBM AI Vision視覺大腦”則可以很好地針對這兩個痛點進行解決。對剪輯師而言,其通過快速對視頻進行分類和剪切,能夠給剪輯師提供出最符合制作需求的視頻片段。尋找合適的素材這個需要耗費大量時間的環節被完美解決之后,剪輯師的工作任務也就被分解,從而可以騰出更多的時間開發出更多有創意的視頻內容。
而對球迷來講,一方面桌上的飯多了,另一方面花樣兒也變得更加豐富,以前可能只有四菜一湯,現在推出的是四葷四素十個熱菜再加湯羹主食一應俱全。更重要的是,利用人工智能的對球迷喜好的理解能力,視頻內容的輸出也可以從常規的單向輸出變成以球迷的想法為輸出點,球迷則能精準地找到自己喜愛的球星內容,令自己的觀賽體驗更加良好。
那么,讓剪輯師和球迷兩方的需求都從求之不得到唾手可得,AI就不再僅僅是一種冰涼的科技,更是有溫度的大腦。
先搞定最難搞的那個:“IBM AI Vision視覺大腦”的籃球挑戰賽
經常看籃球的球迷都知道,籃球場上除了籃球觸地的“砰砰”聲,最多的就是球鞋和地板摩擦的“啾啾”聲。這主要是因為籃球運動員移動速度太快,奔跑中經常會突然加速、急停、變向、攻防轉換等,讓人猝不及防。此外,十個人在半場不斷地跑動會顯得非常擁擠,運動員的臉很容易被遮擋,這在無形之中就增加了機器學習的難度系數。
那么,IBM是怎樣應對這個難題的呢?IBM中國研究院拿出法寶——“IBM AI Vision視覺大腦”技術。
IBM AI Vision 視覺大腦技術解析
對于AI的重要分支領域,機器視覺技術來說,最難挑戰的場景或許就是體育場這種集合了視線遮擋、快速運轉、復雜規則和大量“人臉識別目標”的“鬼地方”。在籃球賽這種場景里,AI想要正確捕捉和自動剪輯畫面,就要讀懂比賽規則、合理調用現場的攝像頭與傳感裝置、預測動作行為、個人數據模式,甚至觀眾的視覺變化可能性。這是一個多模態交互,并且應用度極強的技術標的。或許可以這么說,如果籃球賽都能搞定,那么“IBM AI Vision視覺大腦”這類技術在其他體育文娛比賽中的應用也就一馬平川了呢。
為了搞定這個最難搞的目標,“IBM AI Vision視覺大腦”在籃球賽剪輯當中的實戰劃分為三個層次:
第一步,建模,讓機器學習能夠看懂籃球。怎么才能讓機器看懂籃球呢?IBM創新性地采用了多模態視覺理解技術。比如怎么確定眼前這個漂移投三分的是小學生庫里?這就要涉及到機器視覺 (確定庫里的臉、球衣等) 、動作識別 (庫里的投籃、運球、上籃、防守等姿勢) 、聲音識別 (庫里進球之后的吼叫或被吹犯規之后的抱怨等) 等幾個方面的技術。同樣,通過對各種比賽要素的訓練,機器能看懂什么叫進球、誰是進攻一方,根據投籃姿勢等不同確定投籃的方式 (三分、后仰、上籃、扣籃等等) 。值得一提的是,IBM利用遷移學習的方法,僅僅通過少量數據就完成建模,讓機器學習看懂了籃球。
第二步,剪切,怎樣才能找到合適影像片段并將其剪切提取呢?這就涉及到這位AI剪輯師的又一項功能:打標簽。通過將非結構化的視頻數據提取為結構化數據,每一幀畫面都可以被檢索得到。比如哪些畫面被定義為扣籃,哪些畫面是后仰跳投,又有哪些是蓋帽等。打完了標簽,又能進行檢索,那么想要什么素材可以說是做到隨用隨取了。并且,其還能為動作打分,比如科比的后仰跳投美如畫,能打一百分;詹姆斯的后仰跳投可能就只能得個七十分 (詹密請自動屏蔽這一句) 。那么,通過對動作的評分,就更容易找到最合適的素材。
第三步,編輯成片。完成了以上兩個步驟,剩下的編輯對剪輯師來說根本就是小菜一碟。但既然做出了視頻大腦,那總得物盡其用,所以其在這最后一步也刷了一波存在感。剪輯師們只需要設置好所需要的主題、球員等應用場景的要求,“IBM AI Vision視覺大腦”自動按照評分選出素材,還能順便配個音樂加個特效,而且保證和視頻的節奏風格保持一致。最關鍵的是,兩三個小時的比賽,AI只需20秒鐘處理,一分鐘即可成片,頗有點立等可取的意思。
步驟看似簡單,其背后卻是IBM強大的人工智能技術支撐。更恐怖的是,它還在繼續進一步地理解球迷的興趣偏好,以便繼續學習和進化,制作出更加貼合觀眾的內容。
由此帶來的效率的提升是顯而易見的。剪輯師們再也不用因為趕時間而把一個素材用到爛,而且數據的快速處理,也就能夠在海量視頻資源中掘金,讓歷史影像資料都能夠得到最大化的價值利用。
所以,當視頻識別和剪輯在籃球領域取得成功的時候,也就意味著其能在其他活動范圍較大、移動較為清楚而明顯的體育場景下快速地上手。正如凌于絕頂之上,再看眾山皆小,這項技術也就具備了向更廣闊領域推廣的堅實的技術基礎。
神剪輯,是為了搞大事情
從實際意義上來說,“IBM AI Vision視覺大腦”的成功其實是創造了一種新的影響模式,是一場雙贏的游戲。對騰訊體育而言,盤活了海量的歷史數據,使其業務線不僅僅局限于直播領域。而對IBM而言,可以讓技術賦能更多的領域,創造無限可能。
1. 體育領域的造星風潮
NBA現役四百多名球員,你能叫得出來名字的有幾位?數來數去,也就是自己支持的球隊和一些全明星球員。其實很多角色球員其實也具備成為球星的潛力,由于各種原因比如曝光度低或其他原因,令其心理受挫,從而甘于做一名普通球員。而受限于人力,剪輯師們的工作任務往往以球星為中心,于是歷史的長河都留給了這些打出了名堂的球星。
那么,通過“IBM AI Vision視覺大腦”的標簽匹配,可以豐富所有球員的個人信息,為每一個球員打造個人IP。給了球員更精準的標簽定位,一方面可以引起球迷的關注,另一方面也可以讓球員打出自己的特色,有更大的幾率得到進一步成長,從而可以改變觀眾對球員的印象式看法,發掘出更多的潛力球星。
可以想象的是,到時候聯盟腦殘粉的陣營會呈現更加多元化的特點,粉絲的罵戰也將更加精彩紛呈。同樣的操作,亦可復制到其他體育項目、綜藝節目等領域當中去。尤其對綜藝節目而言,同質化造星的現狀將有可能得到改觀。
2. 視頻剪輯行業的改革風暴
用機器代替人力,必然會令產品制作的成本下降。而成本的下降則主要體現在兩個方面。一個是制作視頻的單位時間成本降低,另一個是剪輯師在單位時間內的出片量增加。
那么,在視頻相關的行業,無論是體育、綜藝、游戲,還是電影、電視,或是專門的視頻剪輯工作室,其都可以顯著降低制作成本,節省大量的剪輯時間。從前,電影拍完三個月,剪輯制作可能要六個月,到上映則時間更久。心心念的電影可能再也不需要等太久了。
從更高的層面來講,這項技術可能會對整個視頻剪輯行業產生一次“地震級”的革新效應。也就是說,“IBM AI Vision視覺大腦”的出現將有可能引領視頻剪輯行業的利用AI技術在內容制作上的創新和升級。
3. 物聯網技術的升級
我們應當注意到的是,“IBM AI Vision視覺大腦”在識別球星的時候利用的是多模態的理解技術。這項技術相對復雜,但分析全面,理解的結果精準度高。而物聯網建設的進一步升級,對多模態交互的需求也迫在眉睫,以便實現真正意義上的萬物互聯。
比如在地鐵站的語音售。其通過利用機器視覺來讀取說話人的嘴唇和動作,在結合語音聽覺的分析,確定買票的對象,然后售票。又比如空調在語音交互的基礎上加入視覺技術,其可以在單純的智能開關和調節溫度的基礎上,判斷用戶所在的位置,改變送風方向。同時結合傳感器來判斷屋內的溫度和濕度,來提供更多的室內環境解決方案。
在更多領域比如安防攝像頭讀取分析、無人駕駛路況判斷、盲人行進中的障礙物提醒等,“IBM AI Vision視覺大腦”同樣有廣闊的用武之地。用AI技術做籃球賽剪輯是IBM的一次嘗試,也僅僅只是技術研發的開始。事實上的成功已經證實了IBM在人工智能視頻技術上的強力的儲備,技術成熟之后推廣到更多的應用場景當中,是技術的能力所在,也是其使命使然。