精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:人工智能行業動態 → 正文

采用OpenAI還是DIY?揭開自托管大型語言模型的真實成本

責任編輯:cres 作者:Chawla |來源:企業網D1Net  2024-04-22 14:27:40 原創文章 企業網D1Net

你自豪地將你的服務標榜為“AI驅動”,通過整合大型語言模型。你的網站首頁自豪地展示了你的AI驅動服務帶來的革命性影響,通過互動演示和案例研究,這也是你的公司在全球GenAI領域留下的第一個印記。
 
你的小而忠實的用戶基礎正在享受提升后的客戶體驗,并且你可以看到未來增長的潛力。但是,就在這個月進入第三周時,你收到了一封來自OpenAI的郵件,讓你大吃一驚:
 
就在一周前,你還在與客戶交談,評估產品市場契合度(PMF),現在,成千上萬的用戶涌到你的網站(如今在社交媒體上任何事情都可能變得病毒式流傳),并使你的AI驅動服務崩潰。
 
結果,你曾經可靠的服務不僅讓現有用戶感到沮喪,也影響了新用戶。
 
一個快速而顯而易見的解決辦法是通過增加使用限制立即恢復服務。
 
然而,這個臨時解決方案帶來了不安感。你不禁感到自己被鎖定在對單一供應商的依賴中,對自己的AI及其相關成本控制有限。
 
“我應該自己動手嗎?”你問自己。
 
幸運的是,你知道開源的大型語言模型(LLMs)已成為現實。在像Hugging Face這樣的平臺上,有成千上萬這樣的模型可供即時使用,這為自托管開啟了可能性。
 
然而,你遇到的最強大的LLMs擁有數十億參數,達到數百千兆字節,并且需要大量努力才能擴展。在一個需要低延遲的實時系統中,你不能像使用傳統模型那樣簡單地將它們插入你的應用程序。
 
盡管你對團隊建設必要基礎設施的能力充滿信心,真正的關注點在于這種轉變的成本含義,包括:
 
- 微調成本
- 托管成本
- 服務成本
 
所以,一個重大的問題是:你是應該增加使用限制,還是應該走自托管,也就是所謂的“擁有”路線?
 
使用Llama 2做一些計算
 
首先,不要急。這是一個重大決定。
 
如果你咨詢你的機器學習(ML)工程師,他們可能會告訴你,Lama 2是一個開源LLM,看起來是一個不錯的選擇,因為在大多數任務上它的表現與你目前使用的GPT-3一樣好。
 
你還會發現,這個模型有三種規模大小——70億、13億和7億參數——你決定使用最大的70億參數模型,以保持與你目前使用的OpenAI模型的競爭力。
 
LLaMA 2使用bfloat16進行訓練,因此每個參數消耗2字節。這意味著模型大小將是140 GB。
 
如果你認為這個模型調整起來很大,不用擔心。使用LoRA,你不需要在部署前對整個模型進行微調。
 
事實上,你可能只需要微調總參數的約0.1%,即70M,這在bfloat16表示下消耗0.14 GB。
 
令人印象深刻,對吧?
 
為了在微調期間適應內存開銷(如反向傳播、存儲激活、存儲數據集),最好維持的內存空間是可訓練參數消耗的大約5倍。
 
讓我們來詳細分析一下:
 
在使用LoRA時,LLaMA 2 70B模型的權重是固定的,因此這不會導致內存開銷 → 內存需求 = 140 GB。
 
然而,為了調整LoRA層,我們需要維持0.14 GB * (5倍) = 0.7 GB。
 
這樣在微調期間總共需要約141 GB的內存。
 
假設你目前還沒有培訓基礎設施,我們假設你更喜歡使用AWS。根據AWS EC2按需定價,計算成本約為每小時2.8美元,因此微調的成本約為每天67美元,這并不是一個巨大的費用,因為微調不會持續很多天。
 
人工智能與餐廳正相反:主要成本在于服務而非準備
 
在部署時,你需要在內存中維護兩個權重:
 
1. 模型權重,消耗140 GB內存。
2. LoRA微調權重,消耗0.14 GB內存。
 
總共是140.14 GB。
 
當然,你可以取消梯度計算,但仍然建議維持大約1.5倍的內存 — 大約210 GB — 以應對任何意外的開銷。
 
再次基于AWS EC2按需定價,GPU計算的成本約為每小時3.70美元,即保持模型在生產內存中并響應傳入請求的成本約為每天90美元。
 
這相當于每月約2700美元。
 
另一個需要考慮的事情是,意外故障總是會發生。如果你沒有備用機制,你的用戶將停止接收模型預測。如果你想防止這種情況發生,你需要維護另一個冗余模型,以防第一個模型請求失敗。
 
因此,這將使你的成本達到每天180美元或每月5400美元。你幾乎接近目前使用OpenAI的成本了。
 
在什么情況下,OpenAI和開源模型的成本會打平?
 
如果你繼續使用OpenAI,以下是每天你可以處理的單詞數量,以匹配上述使用LLaMA 2的微調和服務成本。
 
根據OpenAI的定價,微調GPT 3.5 Turbo的成本為每1000個令牌0.0080美元。
 
假設大多數單詞有兩個令牌,為了匹配開源LLaMA 2 70B模型的微調成本(每天67美元),你需要向OpenAI模型提供大約415萬個單詞。
 
通常,A4紙上的平均字數為300,這意味著我們可以向模型提供大約14,000頁的數據以匹配開源微調成本,這是一個巨大的數字。
 
你可能沒有那么多的微調數據,所以使用OpenAI進行微調的成本總是較低。
 
另一個可能很明顯的點是,這種微調成本不是與訓練時間相關,而是與模型微調的數據量相關。在微調開源模型時情況并非如此,因為成本將取決于數據量和你使用AWS計算資源的時間。
 
至于服務成本,根據OpenAI的定價頁面,一個經過微調的GPT 3.5 Turbo的輸入成本為每1000個令牌0.003美元,輸出為每1000個令牌0.006美元。
 
我們假設平均每1000個令牌0.004美元。要達到每天180美元的成本,我們需要通過API每天處理大約2220萬個單詞。
 
這相當于超過74,000頁的數據,每頁300個單詞。
 
然而,好處是你不需要確保模型全天候運行,因為OpenAI提供了按使用付費的定價。
 
如果你的模型從未被使用,你就不需要支付任何費用。
 
總結:何時擁有才真正有意義?
 
一開始,轉向自托管AI可能看起來是一個誘人的嘗試。但要小心隨之而來的隱藏成本和頭痛問題。
 
除了偶爾失眠的夜晚讓你納悶你的AI驅動服務為何會宕機之外,如果使用第三方提供商,幾乎所有在生產系統中管理LLMs的困難都會消失。
 
特別是當你的服務不是主要依賴于“AI”,而是依賴于AI的其他東西時。
 
對于大企業來說,每年65,000美元的擁有成本可能只是杯水車薪,但對于大多數企業來說,這是一個不能忽視的數字。
 
此外,我們不應忘記其他額外費用,如人才和維護,這些可以輕松將總成本增加到每年200,000至250,000美元以上。
 
當然,從一開始就擁有模型有其好處,比如保持對你的數據和使用的控制。
 
但是,要使自托管變得可行,你將需要用戶請求量遠遠超過每天大約2220萬個單詞的標準,并且需要同時具備管理人才和后勤的資源。
 
對于大多數用例來說,擁有模型而不是使用API在財務上可能并不劃算。
 
企業網D1net(hfnxjk.com):
 
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
 
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:AI

原創文章 企業網D1Net

x 采用OpenAI還是DIY?揭開自托管大型語言模型的真實成本 掃一掃
分享本文到朋友圈
當前位置:人工智能行業動態 → 正文

采用OpenAI還是DIY?揭開自托管大型語言模型的真實成本

責任編輯:cres 作者:Chawla |來源:企業網D1Net  2024-04-22 14:27:40 原創文章 企業網D1Net

你自豪地將你的服務標榜為“AI驅動”,通過整合大型語言模型。你的網站首頁自豪地展示了你的AI驅動服務帶來的革命性影響,通過互動演示和案例研究,這也是你的公司在全球GenAI領域留下的第一個印記。
 
你的小而忠實的用戶基礎正在享受提升后的客戶體驗,并且你可以看到未來增長的潛力。但是,就在這個月進入第三周時,你收到了一封來自OpenAI的郵件,讓你大吃一驚:
 
就在一周前,你還在與客戶交談,評估產品市場契合度(PMF),現在,成千上萬的用戶涌到你的網站(如今在社交媒體上任何事情都可能變得病毒式流傳),并使你的AI驅動服務崩潰。
 
結果,你曾經可靠的服務不僅讓現有用戶感到沮喪,也影響了新用戶。
 
一個快速而顯而易見的解決辦法是通過增加使用限制立即恢復服務。
 
然而,這個臨時解決方案帶來了不安感。你不禁感到自己被鎖定在對單一供應商的依賴中,對自己的AI及其相關成本控制有限。
 
“我應該自己動手嗎?”你問自己。
 
幸運的是,你知道開源的大型語言模型(LLMs)已成為現實。在像Hugging Face這樣的平臺上,有成千上萬這樣的模型可供即時使用,這為自托管開啟了可能性。
 
然而,你遇到的最強大的LLMs擁有數十億參數,達到數百千兆字節,并且需要大量努力才能擴展。在一個需要低延遲的實時系統中,你不能像使用傳統模型那樣簡單地將它們插入你的應用程序。
 
盡管你對團隊建設必要基礎設施的能力充滿信心,真正的關注點在于這種轉變的成本含義,包括:
 
- 微調成本
- 托管成本
- 服務成本
 
所以,一個重大的問題是:你是應該增加使用限制,還是應該走自托管,也就是所謂的“擁有”路線?
 
使用Llama 2做一些計算
 
首先,不要急。這是一個重大決定。
 
如果你咨詢你的機器學習(ML)工程師,他們可能會告訴你,Lama 2是一個開源LLM,看起來是一個不錯的選擇,因為在大多數任務上它的表現與你目前使用的GPT-3一樣好。
 
你還會發現,這個模型有三種規模大小——70億、13億和7億參數——你決定使用最大的70億參數模型,以保持與你目前使用的OpenAI模型的競爭力。
 
LLaMA 2使用bfloat16進行訓練,因此每個參數消耗2字節。這意味著模型大小將是140 GB。
 
如果你認為這個模型調整起來很大,不用擔心。使用LoRA,你不需要在部署前對整個模型進行微調。
 
事實上,你可能只需要微調總參數的約0.1%,即70M,這在bfloat16表示下消耗0.14 GB。
 
令人印象深刻,對吧?
 
為了在微調期間適應內存開銷(如反向傳播、存儲激活、存儲數據集),最好維持的內存空間是可訓練參數消耗的大約5倍。
 
讓我們來詳細分析一下:
 
在使用LoRA時,LLaMA 2 70B模型的權重是固定的,因此這不會導致內存開銷 → 內存需求 = 140 GB。
 
然而,為了調整LoRA層,我們需要維持0.14 GB * (5倍) = 0.7 GB。
 
這樣在微調期間總共需要約141 GB的內存。
 
假設你目前還沒有培訓基礎設施,我們假設你更喜歡使用AWS。根據AWS EC2按需定價,計算成本約為每小時2.8美元,因此微調的成本約為每天67美元,這并不是一個巨大的費用,因為微調不會持續很多天。
 
人工智能與餐廳正相反:主要成本在于服務而非準備
 
在部署時,你需要在內存中維護兩個權重:
 
1. 模型權重,消耗140 GB內存。
2. LoRA微調權重,消耗0.14 GB內存。
 
總共是140.14 GB。
 
當然,你可以取消梯度計算,但仍然建議維持大約1.5倍的內存 — 大約210 GB — 以應對任何意外的開銷。
 
再次基于AWS EC2按需定價,GPU計算的成本約為每小時3.70美元,即保持模型在生產內存中并響應傳入請求的成本約為每天90美元。
 
這相當于每月約2700美元。
 
另一個需要考慮的事情是,意外故障總是會發生。如果你沒有備用機制,你的用戶將停止接收模型預測。如果你想防止這種情況發生,你需要維護另一個冗余模型,以防第一個模型請求失敗。
 
因此,這將使你的成本達到每天180美元或每月5400美元。你幾乎接近目前使用OpenAI的成本了。
 
在什么情況下,OpenAI和開源模型的成本會打平?
 
如果你繼續使用OpenAI,以下是每天你可以處理的單詞數量,以匹配上述使用LLaMA 2的微調和服務成本。
 
根據OpenAI的定價,微調GPT 3.5 Turbo的成本為每1000個令牌0.0080美元。
 
假設大多數單詞有兩個令牌,為了匹配開源LLaMA 2 70B模型的微調成本(每天67美元),你需要向OpenAI模型提供大約415萬個單詞。
 
通常,A4紙上的平均字數為300,這意味著我們可以向模型提供大約14,000頁的數據以匹配開源微調成本,這是一個巨大的數字。
 
你可能沒有那么多的微調數據,所以使用OpenAI進行微調的成本總是較低。
 
另一個可能很明顯的點是,這種微調成本不是與訓練時間相關,而是與模型微調的數據量相關。在微調開源模型時情況并非如此,因為成本將取決于數據量和你使用AWS計算資源的時間。
 
至于服務成本,根據OpenAI的定價頁面,一個經過微調的GPT 3.5 Turbo的輸入成本為每1000個令牌0.003美元,輸出為每1000個令牌0.006美元。
 
我們假設平均每1000個令牌0.004美元。要達到每天180美元的成本,我們需要通過API每天處理大約2220萬個單詞。
 
這相當于超過74,000頁的數據,每頁300個單詞。
 
然而,好處是你不需要確保模型全天候運行,因為OpenAI提供了按使用付費的定價。
 
如果你的模型從未被使用,你就不需要支付任何費用。
 
總結:何時擁有才真正有意義?
 
一開始,轉向自托管AI可能看起來是一個誘人的嘗試。但要小心隨之而來的隱藏成本和頭痛問題。
 
除了偶爾失眠的夜晚讓你納悶你的AI驅動服務為何會宕機之外,如果使用第三方提供商,幾乎所有在生產系統中管理LLMs的困難都會消失。
 
特別是當你的服務不是主要依賴于“AI”,而是依賴于AI的其他東西時。
 
對于大企業來說,每年65,000美元的擁有成本可能只是杯水車薪,但對于大多數企業來說,這是一個不能忽視的數字。
 
此外,我們不應忘記其他額外費用,如人才和維護,這些可以輕松將總成本增加到每年200,000至250,000美元以上。
 
當然,從一開始就擁有模型有其好處,比如保持對你的數據和使用的控制。
 
但是,要使自托管變得可行,你將需要用戶請求量遠遠超過每天大約2220萬個單詞的標準,并且需要同時具備管理人才和后勤的資源。
 
對于大多數用例來說,擁有模型而不是使用API在財務上可能并不劃算。
 
企業網D1net(hfnxjk.com):
 
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
 
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:AI

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 甘孜县| 吴川市| 鄯善县| 新昌县| 东海县| 库车县| 正阳县| 南郑县| 安龙县| 林口县| 东乌珠穆沁旗| 长顺县| 平陆县| 通许县| 陈巴尔虎旗| 都江堰市| 四平市| 阿拉善盟| 崇义县| 长春市| 盈江县| 焦作市| 南通市| 桃园县| 桐城市| 宝清县| 泗水县| 玉溪市| 勃利县| 宁津县| 津市市| 贵德县| 共和县| 长春市| 胶南市| 沈丘县| 南开区| 剑河县| 崇仁县| 六枝特区| 庆阳市|