13.8%和13.11%哪個大?大型車型連續(xù)翻車
下列文章來源于財聯(lián)社AI。 daily ,作者黃心怡
財聯(lián)社AI daily.
財聯(lián)社及科創(chuàng)板日報旗下產(chǎn)品——未來已經(jīng)到來,AI前沿,專屬,深度,專業(yè)!
最近,在最新一期的《歌手》節(jié)目中,孫楠與外國歌手的細(xì)微成績差異,引發(fā)了網(wǎng)友關(guān)于13.8%和13.11%誰大誰小的爭論。
有網(wǎng)友居然給出了“13.11%大于13.8%”的錯誤答案,記者發(fā)現(xiàn)很多大模型和一些網(wǎng)友一樣,搞不清這個小學(xué)四年級的知識點。 。
對《科創(chuàng)板日報》記者進(jìn)行了檢測,Kimi、智譜清言、通義等大型應(yīng)用紛紛翻車,而百度文心一言、字節(jié)豆包則保持了大型模型的尊嚴(yán)。
Kimi在記者提問后表示,:13.11大于13.8。經(jīng)過一番引導(dǎo),Kimi給出了正確的答案,包括問13.11減13.8的答案為負(fù),以及如何回答它的意義。
記者多次詢問Kimimi。 Kimi有時可以正確回答13.11和13.8的大小。Kimi和一些網(wǎng)友一樣,把13.8誤認(rèn)為13.08,所以得到了13.11更多的結(jié)果。
記者問Kimi是否知道湖南衛(wèi)視《歌手》的排名導(dǎo)致了13.11和13.8的更多事件。Kimi成功地回答了這個問題,并為他之前的錯誤答案道歉。
此后,記者還測試了其它小數(shù)位的大小,Kimi的準(zhǔn)確率為50%。
Kimi在數(shù)學(xué)邏輯上是無稽之談,那么其他大模型能準(zhǔn)確回答嗎?在記者的測試中,文心的言論和豆包給出了正確的答案。
其中,文心一言給出了具體的推理過程,也回答了最近的新聞事件。
豆包也經(jīng)受住了考驗。
由于覺得11比8大,智譜清言也犯了和網(wǎng)友一樣的位數(shù)錯誤,推理出13.11比13.8大。而且通義也堅信13.11大于13.8。
智譜清言的答案
通義的回答
值得注意的是,ChatGPT也出現(xiàn)了無稽之談。正確答案是在13.8彌補了13.80的零位數(shù)之后才得到的。
這一大模型說胡話的情況,在業(yè)界被稱為大模型產(chǎn)生幻覺。此前,哈爾濱工業(yè)大學(xué)和華為研究小組發(fā)表的綜述論文認(rèn)為,數(shù)據(jù)庫、培訓(xùn)過程和推理是模型幻覺的三大來源。在訓(xùn)練數(shù)據(jù)中,大型模型可能過于依賴某些方法,例如位置接近、共現(xiàn)統(tǒng)計數(shù)據(jù)和相關(guān)文檔記數(shù),從而產(chǎn)生幻覺。另外,大型模型也可能出現(xiàn)長尾知識缺乏回憶,難以應(yīng)對復(fù)雜的推理。
有業(yè)內(nèi)人士告訴《科技創(chuàng)新板日報》記者,目前大模型的幻覺率還是比較高的,這也是行業(yè)缺乏真正顛覆性應(yīng)用的原因之一。行業(yè)正在共同解決這個核心問題,使得大模型在工作過程中更加可控。
標(biāo)題:“13.8%和13.11%哪個大?大型模型相繼翻車”
閱讀原文
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




