american麻省理工學院技術評論(MIT Technology Review包養感情)網站發表簽名包養網James O’Donnell的文章,題目是:DeepSeek might not be such good news for energy after all(DeepSeek對動力來說能夠不是好新聞)。
(來源:國際動力小數據 作者:E Small Data)
在名為 DeepSeek 的中國人工智能模子成為家喻戶曉的名字的一周內,各種說法層出不窮,準確性參差不齊。最惹人注視的說法是,DeepSeek 的新方式加倍高效包養網,這意味著人工智能或許不再需求耗費今朝這般大批的動力。
這包養甜心網種說法具有誤導性。初步數據——基于 DeepSeek 較小模子在大批提醒下的表現——表白其在天生答包養網覆時能夠比 Meta 的劃一規模模子更耗能。問題能夠在于,包養網它在訓練過程中節省的動力被其答覆問題時更密集的技術,以及由此產生的長篇答覆所抵消。再加上其他科技公司遭到 DeepSeek 方式的啟發,現在能夠開始構建本身的類似低本錢推理模子,動力耗費的遠景就變得更不那么樂觀了。
任何人工智能模子的性命周期都有兩個階段:訓練和推理。訓練是一個凡是持續數月的過程,模子在此過程中從數據包養網中學習。隨后模子便包養網車馬費準備好進行推理,這發生活著界上任何一個人向它提問時。這兩個過程凡包養是都在數據中間進行,需求大批動力來運行芯片和冷卻服務器。
在訓練方面,DeepSeek 包養網團隊改進了 R1 模子的所謂“包養價格ptt專家混雜”技術,即在訓練過程中,模子數十億包養網評價參數(模子用來構成更好謎底的“旋鈕”)中只要一部門處于激活狀態。更值得留意的是,他們在強化學習方面獲得了進步,模子的輸出會被打分,然后用來使其變得更好。這凡是是由人工標注員完成的,但 DeepSeek 團隊在這方面做得很好,實現了自動化。引進一種使訓練更高效的方式,似乎表包養網白人工智能公司將應用更少的動力來那天她痛經到無法下床,本該出差的男人卻突然出現,將其人工智能模子晉陞到必定標準。但是,事實并非這般。假如公司能從投進中獲得更多回報,他們會覺得值得投進更多,是以也會應用更多動力。這就是所謂的杰文斯悖論的一個例子。
但只需人工智能競賽還在進行,訓練方面的這種情況包養就一向存在。推理所需的動力才是更值得關注的處所。DeepS包養網評價eek 被設計為推理模子,這意味包養管道著它旨在擅長邏輯、形式識別、數學等任務,而這些凡是是典範天生式人工智能模子所難以應對的。推理模子包養通過所謂的“思維鏈”來包養軟體實現這一點。它允許人工智能模子將其任務分化成部門,并按邏輯順序慢慢完成,然后得出結論。
我們可以從 Deep包養網Seek 中看到這一點。當被問及能否可以為了保護或人的情感而撒謊時,該模子起首從功利主義角度處理這個問題,權衡面前的善與潛在包養網的未來傷害。然后它考慮康德倫理學,該學說主張人們應依照能夠成為廣泛法則的準則行事。它考慮了這些以及其他細微差別,然后才分送朋友其結論。它認為在仁慈和避免傷害至關主要的情況下,撒謊“凡是是可接收的,但不是永遠這般”。
在諸如 MMLU 等某些基準測試中,思維鏈模子往往表現更好,MMLU 測試了 57 個學科的知識息爭決問題的才能。但但剛進入電梯大廳,叫聲變得更加明顯,長而尖的聲正如 DeepSeek 所顯示的那樣,它們在得出謎底時也需求耗費更多的動力。我們有一些初女大生包養俱樂部步線索,清楚究竟多了幾多。
Scott Chamberlin 在微軟任務多年,后來在英特爾任務,努力于構建東西以提醒包養價格ptt某些數字活動的環境本錢。Chamberlin 進行了一些初步測試,以檢查 GPU 在 DeepSeek 得包養合約出謎底時應用了幾多動力。這個實驗帶有許多留意事項:他只測試了 DeepSeek R-1 的中等規模版本,僅應用大批提醒。“DeepSeek 是我們能接觸到的第一包養站長個比較風行的推理模子包養,”他說。OpenAI 的 o1 模子是其最接近的競爭對手,但該公司不開放供測試。相反,他將其與 Meta 的一款具有雷同參數數量(700 億)的模子進行了測試。包養網詢問能否可以撒謊的提醒從 DeepSeek 模子中天生了一篇 1000 字的答覆,天生這篇答覆耗費了 17800 焦耳的能量——年夜約相當于播放一個 10 分鐘的 YouTube 視頻所需的能量。這比 Meta 模子答覆該提醒所應用的能量多了約 41%。總體而言,在 40 個提醒的測試中,DeepSeek 作者是不是邏輯繞過了?被發現與 Meta 模子具有類似的動力效力,但 DeepSeek 傾向于天生更長的答覆,是以被發包養合約現應用了多 87% 的動力。這與應用常規傳統天生式人工智能而非思維鏈推理的模子比擬若何呢?密歇根年夜學的一個團隊在 10 月份的測試發現,Meta 的 L包養站長lama 3.1 的 700 億參數版本均勻每答覆耗費 512 焦耳。
我們再次強調:包養還存在許多不確定包養網性。這些是分歧用處的分歧模子,尚未進行科學公道的研討來比較 DeepS包養感情eek 相對于競爭對包養網單次手的動力應用情況。但僅根據模子的架構就可以明白地看出,思維鏈模子在得出更公道的謎底時會耗費大批動台灣包養網力。
Hugging Face 的人工智能研討員兼氣候主管 Sasha Luccion將貓裹起來:「給我吧。」i 擔心,圍繞 DeepSeek 的興奮能夠會導致人們急于將這種方式應用到一切處所,即便在不需求的處所也是這般。“假如我們開始廣泛采用這種范式,推理動力應用量將急劇上升,”她說。“假如一切發布的模子都更計算密集型,并且采用思維鏈,那么這將完整抵消任何效力晉陞。”
發佈留言