隨著AI商業化的演進,現在做人工智能產品和服務的公司越來越多了,談及人工智能就少不了討論算法和數據的關系,在業內人士看來,實際應用過程中很多時候數據比算法顯得更加重要,因為算法的“好壞”在沒有大量有效數據的支撐下是沒有意義的,很多算法得到的結果的質量完全取決于其和真實數據的擬合程度。
于是,在人工智能產業鏈上誕生了許多專門做數據的公司,希爾貝殼也是一家數據服務商,公司注冊成立于2017年4月,算是剛剛起步,面對市場競爭,這家公司和其他數據公司相比有什么特別之處呢?
希爾貝殼創始人兼CEO卜輝介紹說:“目前人工智能數據服務商,基本上是以提供人力服務為主而技術輔助和方案設計能力有限。而希爾貝殼可以從參與客戶的數據制作方案開始,我們知道怎么做才能夠讓客戶得到最合理最有價值的數據,以及落地產品怎么用好這些數據,我們還會利用一些技術手段對數據做測試,去發現數據是否存在問題,這兩個事情是一般基礎數據服務商做不到的。”
制作一套有價值的數據是有其科學性的,人工智能行業目前存在的痛點性問題和剛性需求就是,很多初創型AI公司由于數據經驗不足,一套數據對自己的算法是不是真正有價值,對算法是不是會有提升也是疑惑的。而傳統數據服務商本身沒有提供數據制作方案的能力。數據工作是不可復的,一旦數據采集完成,你只能用這個數據或者重新做數據,時間不可回流的,對于企業來說可能意味著失去寶貴的市場機會。
據悉,卜輝本人是韓國高麗大學碩士畢業,在大學語音信息處理實驗室期間一直在做語音識別方向的研究,有過半年研究員的經歷。2014年初,國內人工智能大潮逐漸興起,他選擇回國,之后進入了中國大數據交易及服務行業第一家掛牌新三板的企業:數據堂,在數據堂工作了兩年多時間,主要工作內容是策劃人工智能大數據制作方案,尤其是在語音數據這個領域。2016年底他選擇自己出來創業,融合自身的技術優勢以及數據設計方案的經驗,成立了希爾貝殼。
“希爾貝殼的商業模式是分階段的呈現,現有的模式就是針對于場景語音大數據,場景語音大數據會涉及到智能家居場景,智能車載場景以及其他場景,我們也有幾款自己的數據產品,比如說智能家居的語音數據產品,智能車載的以及一些基礎的中文普通話的數據產品,我們也會幫客戶去定制一些場景的大數據。同時我們還會不斷開源一些有市場和研發價值的數據出來,例如在今年7月份開源的aishell中文普通話精標數據集,我們把數據放到了開源ASR系統KALDI里,讓更多的人能進入語音識別這個領域去學習、研究。”
據了解,希爾貝殼的數據產品目前以語音數據為主,主要涵蓋:智能家居、智能車載、智能機器人、基礎數據、開源數據五方面。現有智能家居場景語音數據錄音時長1800-2100小時;智能車載語音數據錄音時長750小時;智能機器人語音數據錄音時長:21-25小時;中文普通話語音數據錄音時長1250小時;基于kaldi的中文普通話開源語音數據庫錄音時長178小時。針對語音識別的研究人員以及一些新創業的AI公司而言,這些數據雖然量不夠大但會是一個起步的助力。
核心技術方面,希爾貝殼擁有自己的一套語音識別引擎,自然語言處理系統,以及發音詞典的生成模型等,針對數據行業存在的問題希爾貝殼研發了4套系統來用智能輔助代替大量人工:語音數據源質量評測系統,用來評測語音信號幅度、噪音、轉寫錯誤率判定、音素平衡校準。語音自動轉寫系統,支持普通話和英文語音,減少人工輔助;場景數據集測試系統,支持遠場數據集加噪、多距離數據混響性能測試,支持車載數據集與駕駛條件下環境相符度測試;音頻檢索系統,輔助語音數據歸類。
卜輝說:“第一我們會逐漸用技術手段去減少人工的成本,第二讓數據更有價值,比如說,我們用自有的技術去提前體驗做好的數據,幫助客戶提前預知數據產品的錯誤和BUG在哪里,我們去改正去修補,讓這個數據的價值體現在客戶使用之前,而不是客戶使用之后才發現一些問題;第三個服務方向,我們正在嘗試新一代的人工智能大數據制作方案和制作方法,目前來說基本上在語音識別、圖像識別、自然語言處理都是很單向的,我們會嘗試多模態的數據,多種融合的數據。”
多模態數據將有利于輔助機器人更智能的去判斷問題,而不是只停留在語音、圖像、文本的識別層面,單個領域的識別率可能都非常高,但是這三項技術并連起來會是什么樣的結果,會是什么樣的數據形態展現,正是多模態數據要研究的方向。
希爾貝殼前期落地的盈利模式是把自身的數據制作方案和數據去變現,把握客戶的精準需求,比如說定位到智能家居場景下等。卜輝透露公司現階段靠數據和方案已經成功變現了,7月份剛走上運營正軌,公司的商業1.0計劃起步還算穩健。
“我們團隊的目標是要打造人工智能大數據和技術的創新變革,我們要以一個革命者去做這個事情。”卜輝總結說。
據悉,希爾貝殼目前北京總部有8人,負責商務、產品、技術方案等,非京的地方團隊目前約有20余人主要負責數據采集和標注。希爾貝殼目前正在籌備天使輪融資,希望天使投資方具備AI行業背景,比如投資過機器人公司或者投資過AI技術解決方案公司等。
產品:場景化的數據產品+數據定制方案
公司:北京希爾貝殼科技有限公司
網址:http://www.aishelltech.com