每日?qǐng)?bào)道:谷歌又鬧大烏龍 Jeff Dean參與的新模型竟搞錯(cuò)Hinton生日
最近,谷歌研究員發(fā)布了關(guān)于指令微調(diào)的最新工作!然而卻宣傳圖中出現(xiàn)了可笑的烏龍。幾個(gè)小時(shí)之前,谷歌大腦的研究員們非常開(kāi)心地曬出了自己最新的研究成果:“我們新開(kāi)源的語(yǔ)言模型Flan-T5,在對(duì)1,800多種語(yǔ)言的任務(wù)進(jìn)行指令微調(diào)后,顯著提高了prompt和多步推理的能力?!?/p>
(資料圖片)
然而,就在這張精心制作的“宣傳圖”上,竟藏著一個(gè)讓人哭笑不得的bug!
請(qǐng)注意看Geoffrey Hinton的出生日期:
但實(shí)際上,Hinton出生于1947年……
雖然沒(méi)有必然聯(lián)系,但是Google自己的模型,竟然會(huì)把自家大佬的生日搞錯(cuò)?
馬庫(kù)斯同志看完直接就驚了:你們Google,沒(méi)人負(fù)責(zé)審核的嗎……
理論上,這篇擁有31位作者,外加Jeff Dean這種大佬參與的論文,不應(yīng)該發(fā)生這種“低級(jí)錯(cuò)誤”才對(duì)啊。
“復(fù)制”的時(shí)候“打錯(cuò)了”而已!
很快,論文的共同一作就在馬庫(kù)斯的推文下面進(jìn)行了回復(fù):“我們都知道,模型的輸出并不總是符合事實(shí)。我們正在進(jìn)行負(fù)責(zé)任的AI評(píng)估,一旦有了結(jié)果,我們將立即更新論文。”
沒(méi)過(guò)多久,這位作者刪除了上面那條推文,并更新留言稱:“這只是在把模型的輸出復(fù)制到Twitter上時(shí),『打錯(cuò)了』而已?!?/p>
對(duì)此,有網(wǎng)友調(diào)侃道:“不好意思,你能不能給我翻譯翻譯,什么叫『復(fù)制』來(lái)著?”
當(dāng)然,在查看原文之后可以發(fā)現(xiàn),“圖1”所示的生日,確實(shí)沒(méi)錯(cuò)。
至于在宣傳圖中是如何從“1947”變成“1963”的,大概只有做圖的那位朋友自己知道了。
隨后,馬庫(kù)斯也刪除了自己的這條推文。
世界重歸平靜,就像什么也沒(méi)有發(fā)生一樣。
只留下Google研究員自己推文下面的這條在風(fēng)中飄搖——
擴(kuò)展指令微調(diào)語(yǔ)言模型
既然誤會(huì)解除了,我們就讓話題重新回到論文本身上來(lái)吧。
去年,Google推出了一個(gè)參數(shù)量只有1370億的微調(diào)語(yǔ)言網(wǎng)絡(luò)FLAN(fine-tuned language net)。
https://arxiv.org/abs/2109.01652
FLAN是Base LM的指令調(diào)優(yōu)(instruction-tuned)版本。指令調(diào)優(yōu)管道混合了所有數(shù)據(jù)集,并從每個(gè)數(shù)據(jù)集中隨機(jī)抽取樣本。
研究人員稱,這種指令調(diào)節(jié)(instruction tuning)通過(guò)教模型如何執(zhí)行指令描述的任務(wù)來(lái)提高模型處理和理解自然語(yǔ)言的能力。
結(jié)果顯示,在許多有難度的基準(zhǔn)測(cè)試中,F(xiàn)LAN的性能都大幅超過(guò)了GPT-3。
這次,Google將語(yǔ)言模型進(jìn)行拓展之后,成功刷新了不少基準(zhǔn)測(cè)試的SOTA。
比如,在1.8K任務(wù)上進(jìn)行指令微調(diào)的Flan-PaLM 540B,性能明顯優(yōu)于標(biāo)準(zhǔn)的PALM 540B(平均 + 9.4%),并且在5-shot的MMLU上,F(xiàn)lan-PaLM也實(shí)現(xiàn)了75.2%的準(zhǔn)確率。
此外,作者還在論文中公開(kāi)發(fā)布Flan-T5檢查點(diǎn)。即便是與更大的模型(如PaLM 62B)相比,F(xiàn)lan-T5也能實(shí)現(xiàn)強(qiáng)大的小樣本性能。
論文地址:https://arxiv.org/abs/2210.11416
總結(jié)來(lái)說(shuō),作者通過(guò)以下三種方式擴(kuò)展了指令微調(diào):
擴(kuò)展到540B模型
擴(kuò)展到1.8K的微調(diào)任務(wù)
在思維鏈(CoT)數(shù)據(jù)上進(jìn)行微調(diào)
作者發(fā)現(xiàn)具有上述方面的指令微調(diào)顯著提高了各種模型類(PaLM、T5、U-PaLM)、prompt設(shè)置(zero-shot、few-shot、CoT)和評(píng)估基準(zhǔn)(MMLU、BBH、 TyDiQA、MGSM、開(kāi)放式生成)。
這次的微調(diào)數(shù)據(jù)包括473個(gè)數(shù)據(jù)集、146個(gè)任務(wù)類別和1,836個(gè)總?cè)蝿?wù)。
作者是通過(guò)結(jié)合之前工作中的四種混合(Muffin、T0-SF、NIV2 和 CoT),縮放(scale)成了下圖中的1836個(gè)微調(diào)任務(wù)。
在研究中,微調(diào)數(shù)據(jù)格式如下圖這樣組合。研究者在有樣本/無(wú)樣本、有思想鏈/無(wú)思想鏈的情況下進(jìn)行了微調(diào)。要注意的是,其中只有九個(gè)思維鏈(CoT)數(shù)據(jù)集使用CoT格式。
第四種微調(diào)數(shù)據(jù)的混合涉及CoT注釋,作者用它來(lái)探索CoT注釋的微調(diào)是否可以提高看不見(jiàn)的推理任務(wù)的性能。
作者從先前的工作中創(chuàng)建了9個(gè)數(shù)據(jù)集的新混合,然后由人類評(píng)估者手動(dòng)為訓(xùn)練語(yǔ)料庫(kù)編寫CoT注釋。這9個(gè)數(shù)據(jù)集包括算數(shù)推理、多跳推理(multi-hop reasoning)和自然語(yǔ)言推理等。
作者在廣泛的模型中應(yīng)用了指令微調(diào),包括T5、PaLM和U-PaLM。對(duì)于每個(gè)模型,作者都采用了相同的訓(xùn)練過(guò)程,使用恒定的學(xué)習(xí)率,并使用Adafactor優(yōu)化器進(jìn)行了微調(diào)。
從下表中可以看出,用于微調(diào)的計(jì)算量?jī)H占訓(xùn)練計(jì)算的一小部分。
作者根據(jù)模型的大小和微調(diào)任務(wù)的數(shù)量,在保留任務(wù)的性能上檢測(cè)了縮放的影響。
作者從對(duì)三種大小的PaLM模型(8B/62B/540B)進(jìn)行實(shí)驗(yàn),從任務(wù)最少的混合開(kāi)始,一次添加任務(wù)混合,然后再到任務(wù)最多的混合(CoT、Muffin、T0-SF 和 NIV2)。
作者發(fā)現(xiàn),擴(kuò)展指令微調(diào)后,模型大小和任務(wù)數(shù)量的擴(kuò)展都會(huì)大大改善性能。
是的,繼續(xù)擴(kuò)展指令微調(diào)就是最關(guān)鍵的要點(diǎn)!
不過(guò),在282個(gè)任務(wù)之后,收益開(kāi)始略微變小。
從下表中可以看出,對(duì)于三種大小的模型,多任務(wù)指令微調(diào)后,相比沒(méi)有微調(diào)時(shí),性能有很大的提高,性能增益范圍從9.4%到15.5%。
其次,增加微調(diào)數(shù)量可以提高性能,盡管大部分的改進(jìn)來(lái)自282個(gè)任務(wù)。
最后,將模型規(guī)模增加一個(gè)數(shù)量級(jí)(8B→62B或62B→540B)會(huì)顯著提高微調(diào)和非微調(diào)模型的性能。
為什么282個(gè)任務(wù)之后增益就變小了呢?有兩種解釋。
一是附加任務(wù)不夠多樣化,因此沒(méi)有為模型提供新知識(shí)。
二是多任務(wù)指令微調(diào)的大部分收益,是因?yàn)槟P蛯W(xué)習(xí)更好地表達(dá)了它在預(yù)訓(xùn)練中已經(jīng)知道的知識(shí),而282個(gè)以上的任務(wù)并沒(méi)有太大的幫助。
另外,作者還探討了在指令微調(diào)混合中包含思想鏈(CoT)數(shù)據(jù)的效果。
可以看出,F(xiàn)lan-PaLM在所有評(píng)估基準(zhǔn)上都優(yōu)于PaLM。
不過(guò)令人驚訝的是,以前的指令微調(diào)方法(如FLAN,T0)顯著降低了non-CoT的性能。
對(duì)此的解決方案是,只需在微調(diào)混合中添加9個(gè)CoT數(shù)據(jù)集,就可以在所有評(píng)估中獲得更好的性能。
雖然思維鏈(Chain-of-Thought)prompting通常非常有效,但只能編寫少量樣本,而且零樣本CoT并不總是有效果。
而Google研究者的CoT微調(diào)顯著提高了零樣本推理能力,比如常識(shí)推理。
為了展示方法的通用性,研究人員訓(xùn)練了T5、PaLM和U-PaLM。其中參數(shù)量的覆蓋范圍也非常廣,從8000萬(wàn)到5400億。
結(jié)果證明,所有這些模型都得到了顯著提升。
在以往,開(kāi)箱即用的預(yù)訓(xùn)練語(yǔ)言模型可用性通常都很差,比如對(duì)輸入的prompt沒(méi)有反應(yīng)。
Google的研究者要求人類評(píng)估者來(lái)評(píng)估開(kāi)放式生成問(wèn)題的“模型可用性”。
結(jié)果顯示,F(xiàn)lan-PaLM 的可用性比PaLM基礎(chǔ)模型要高79%。
此外,指令微調(diào)還補(bǔ)充了其他的模型適應(yīng)技術(shù),比如UL2R。
同樣的,F(xiàn)lan-U-PaLM取得了很多優(yōu)秀的結(jié)果。
論文地址:https://arxiv.org/abs/2210.11399
Google的另一起“翻車”事件
可以說(shuō),剛剛發(fā)生的這個(gè)劇情,既視感相當(dāng)強(qiáng)了!
沒(méi)錯(cuò),就在10月19日,當(dāng)GooglePixel的官方賬號(hào)試圖挖苦蘋果CEO庫(kù)克時(shí),被網(wǎng)友抓包:是用iPhone發(fā)的推文……
顯然,這種事情早已不是第一次了。
2013年,T-Mobile的CEO就在Twitter上對(duì)三星Note 3贊不絕口,但用的是iPhone。
同樣是2013年,黑莓的創(chuàng)意總監(jiān)Alicia Keys在發(fā)布會(huì)上說(shuō),她已經(jīng)拋棄了自己之前的iPhone,換了黑莓Z10。隨后,就被發(fā)現(xiàn)用iPhone發(fā)推,甚至在被抓到后發(fā)推狡辯說(shuō)是因?yàn)樽约罕缓诹恕?/p>
三星,也不例外:
而且,相比于Google的這次刪推,三星當(dāng)時(shí)做得更加決絕:直接刪號(hào)!
看來(lái),營(yíng)銷課程有必要加上這樣的一條戒律了:如果你要推廣一個(gè)產(chǎn)品,請(qǐng)不要用競(jìng)爭(zhēng)對(duì)手的產(chǎn)品來(lái)做。
這并不是一個(gè)難以傳授的信息,甚至還可以做得直白:在推銷其他產(chǎn)品時(shí),手里請(qǐng)不要拿著iPhone。
關(guān)鍵詞: Google 谷歌又鬧大烏龍 Jeff Dean參與的新模型竟
相關(guān)新聞