寫(xiě)代碼的Mamba確實(shí)超過(guò)了Transformer,原始論文當(dāng)選頂流新大會(huì)。
“歐洲OpenAI”和“Transformer挑戰(zhàn)者”強(qiáng)強(qiáng)聯(lián)手!
Mistral AI剛剛推出了它的第一個(gè)基礎(chǔ)。Mamba2開(kāi)源模型的結(jié)構(gòu)——Codestral Mamba(7B),專(zhuān)門(mén)從事代碼生成。

Mamba架構(gòu)不同于Transformer架構(gòu),可以進(jìn)行“線性時(shí)間推理”,理論上可以支持無(wú)限長(zhǎng)度輸入。
Mistral AI:正因?yàn)槿绱?,我們使用Mamba架構(gòu)推出的代碼推理模型耐打。
Mistral AI表示已經(jīng)很多了256k 前后文中的tokenCodestral中測(cè)試 Mamba。
在基準(zhǔn)測(cè)試中,Codestral 超過(guò)CodeGema-1.1.1.1.Mamba的整體性能 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
一些網(wǎng)民說(shuō),這波浪潮是Mistral。 AI應(yīng)該帶來(lái)飛行Mamba架構(gòu)的節(jié)奏。
CMU助理教授Mamba架構(gòu)作者之一Albert Gu表示:
具有較弱“tokenizations“不同的模式或數(shù)據(jù)類(lèi)型(如代碼、byte級(jí)建模)將從壓縮模型(如SSM)中受益越來(lái)越多。
除Codestralral之外, Mamba,Mistral 這一次,AI也同時(shí)發(fā)布了一個(gè)新的。數(shù)學(xué)模型——Mathstral(7B)。
有意思的是,網(wǎng)友們讓它做這幾天頻繁翻車(chē)的大模型。哪個(gè)大大的9.11和9.9?“問(wèn)題,Mathstral先對(duì)比整數(shù),再對(duì)比小數(shù)部分,最后成功做對(duì)。

接近22BTransformer
Codestral Mamba的完整基準(zhǔn)測(cè)試結(jié)果如下:

HumanEval C /Java/JavaScript所有標(biāo)準(zhǔn),如/Bash,Codestral 全面超越CodeGema-1.1.1.Mamba 7B、CodeLlama 7B,CodeLlamamama超過(guò)了它。 34B。
Mistral AI之前自己擁有最強(qiáng)的開(kāi)源編程模型Codestral 22B也沒(méi)有和Codestral Mamba拉開(kāi)了太大的差距。
除此外,DeepSeek v1.5 標(biāo)準(zhǔn)中的7B也比較突出,還有Codestral Mamba打得有來(lái)有回。
DeepSeek v1.5 Spider7B(SQL任務(wù)中復(fù)雜的跨域語(yǔ)義分析和文本)、HumanEval Java、HumanEval Bash、在Codestralal方面,MBPP等方面優(yōu)于 Mamba。
除基準(zhǔn)測(cè)試結(jié)果外,Codestral 第一批Mamba2架構(gòu)模型應(yīng)該是Mamba最受關(guān)注的。
FlashAttention作者的Mamba架構(gòu)Tri Dao還有CMU助理教授,Cartesia AI創(chuàng)始人和首席科學(xué)家Albert Gu提議于去年年底提出。

在此之前,像ChatGPT這樣的Transformer架構(gòu)模型有一個(gè)很大的問(wèn)題:處理長(zhǎng)文本的算率消耗很大。這種情況也是由于Transformer架構(gòu)中注意機(jī)制的二次復(fù)雜性。
而且Mamba是第一個(gè)真正實(shí)現(xiàn)匹配Transformer特性的特性。線性時(shí)間序列模型,也是一種狀態(tài)空間模型(SSM,State Space Model)。
Mamba基于結(jié)構(gòu)化SSM(S4),更現(xiàn)代,適合深度學(xué)習(xí), Structured SSM)在此基礎(chǔ)上,與經(jīng)典結(jié)構(gòu)RNN相似。
主要有三個(gè)創(chuàng)新:有選擇性的輸入信息處理,硬件感知的算法,更簡(jiǎn)單的結(jié)構(gòu)。
Mamba架構(gòu)一問(wèn)世,就引起了圈內(nèi)的高度關(guān)注。Stability 英偉達(dá)科學(xué)家Jim創(chuàng)始人 Fan等人對(duì)它的出現(xiàn)感到興奮。


年初,Mamba第一代論文被ICLR拒絕,當(dāng)時(shí)在圈內(nèi)引起熱議。
然而,最近已被CoLM2024新生代頂流大會(huì)接受。

Mamba2是第二代,狀態(tài)空間擴(kuò)大8倍,訓(xùn)練速度提高50%。
在Mamba2的文章中,我們發(fā)現(xiàn)Transformer中的注意力機(jī)制與SSM有著非常密切的數(shù)學(xué)聯(lián)系,并且成功地選擇了ICML。 2024。

同時(shí)也發(fā)布了一個(gè)數(shù)學(xué)模型
除Codestralral之外, Mamba,Mistral 同時(shí),AI還推出了開(kāi)源數(shù)學(xué)模型——Mathstral作為對(duì)阿基米德誕生2311周年的紀(jì)念,(7B)。
在Mathstral中Mistral 以7B為基礎(chǔ),致力于STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué)),前后文窗口32k。
在基準(zhǔn)測(cè)試中,Mathstral MMLU得分56.6%,達(dá)到63.47%。
關(guān)鍵是,Mathstral還可以通過(guò)計(jì)算更多的推理時(shí)間來(lái)獲得更好的結(jié)果:
在使用大部分投票機(jī)制時(shí),Mathstral 在MATH檢測(cè)中,7B得分為68.37%,但是在64個(gè)備選模型中使用強(qiáng)有力的獎(jiǎng)勵(lì)模型時(shí),得分可以提高到74.59%。

下面是Mathstral Mistral7B和 MMLU各科目7B的表現(xiàn)差異:

參考鏈接:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569
本文來(lái)自微信微信官方賬號(hào)“量子位”(ID:QbitAI),作者:西風(fēng),36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




