大模型時(shí)代,底層邏輯發(fā)生了很大的變化。系統(tǒng)的成本幾乎和客戶使用量成線性關(guān)系,邊際成本依然很高。這里的成本絕大部分都是推理的算力消耗。
這個(gè)模型一般的GPU肯定是跑不起來(lái),如此大的參數(shù)在部署方面?zhèn)人開(kāi)發(fā)者也負(fù)擔(dān)不起(如果你有一些H100也沒(méi)問(wèn)題),估計(jì)是給企業(yè)、政務(wù)公共部門(mén)用的。對(duì)于Meta即將發(fā)布的模型,就有網(wǎng)友潑冷水。相比OpenAI最新的GPT-4o mini版本,Llama 3.1-70B推理成本提升了3倍,但編碼的性能卻要差很多。
Numina一路披荊斬棘、過(guò)關(guān)斬將,在50道超難的數(shù)學(xué)競(jìng)賽題中,其AI模型回答對(duì)了29道比第二名多出7道順利拿下第一名。