国产人妻久久精品二区三区老狼,亚洲国产精品13p,性色av一区二区三区咪爱四虎,国产又粗又猛又爽又黄的视频在线观看动漫

天天時(shí)訊:AI考生今日抵達(dá),商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語(yǔ)”大模型

來(lái)源: 中國(guó)網(wǎng)財(cái)經(jīng)2023-06-07 20:26:18
  

隨著AI大語(yǔ)言模型越來(lái)越多地表現(xiàn)出接近人類智能,面向人類設(shè)計(jì)的高難度、綜合性考試被越來(lái)越多地引入到對(duì)語(yǔ)言模型的智能水平進(jìn)行評(píng)測(cè)。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報(bào)告中就主要通過(guò)各領(lǐng)域的考試對(duì)模型能力進(jìn)行檢驗(yàn)。


(資料圖片僅供參考)

2023年高考今日開考,中文大語(yǔ)言模型是否能夠在高考中趕超ChatGPT呢?

綜合“大考”:“書生·浦語(yǔ)”多項(xiàng)成績(jī)領(lǐng)先于 ChatGPT

近日,商湯科技、上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語(yǔ)言模型“書生·浦語(yǔ)”(InternLM)。

“書生·浦語(yǔ)”具有1040億參數(shù),是在包含1.6萬(wàn)億token的多語(yǔ)種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

全面評(píng)測(cè)結(jié)果顯示,“書生·浦語(yǔ)”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語(yǔ)翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越ChatGPT的成績(jī),其中就包括中國(guó)高考各個(gè)科目的數(shù)據(jù)集(GaoKao)。

“書生·浦語(yǔ)”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集:

由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集MMLU;

微軟研究院推出的學(xué)科考試評(píng)測(cè)集AGIEval(含中國(guó)高考、司法考試及美國(guó)SAT、LSAT、GRE和GMAT等);

由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集C-Eval;

以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集Gaokao;

實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書生·浦語(yǔ)”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進(jìn)行了全面測(cè)試,針對(duì)上述四個(gè)評(píng)測(cè)集的成績(jī)對(duì)比如下(滿分100分)。

“書生·浦語(yǔ)”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個(gè)綜合性考試中領(lǐng)先于ChatGPT;在以美國(guó)考試為主的MMLU上實(shí)現(xiàn)和ChatGPT持平。這些綜合性考試的成績(jī)反映出“書生·浦語(yǔ)”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。

雖然 “書生·浦語(yǔ)”在考試評(píng)測(cè)上取得優(yōu)秀成績(jī),但在測(cè)評(píng)中也可以看到,大語(yǔ)言模型仍然存在不少能力局限性?!皶て终Z(yǔ)” 受限于2K的語(yǔ)境窗口長(zhǎng)度(GPT-4的語(yǔ)境窗口長(zhǎng)度為32K),在長(zhǎng)文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對(duì)話中,大語(yǔ)言模型還普遍存在幻覺(jué)、概念混淆等問(wèn)題。這些局限使得大語(yǔ)言模型在開放場(chǎng)景中的使用還有很長(zhǎng)的路要走。

四個(gè)綜合性考試評(píng)測(cè)數(shù)據(jù)集結(jié)果

MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和UIUC共同構(gòu)建的多任務(wù)考試評(píng)測(cè)集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國(guó)歷史、法律、經(jīng)濟(jì)、外交等多個(gè)學(xué)科。

細(xì)分科目結(jié)果如下表所示。

(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)

AGIEval是由微軟研究院在今年新提出的學(xué)科考試評(píng)測(cè)集,主要目標(biāo)是通過(guò)面向的考試來(lái)評(píng)估語(yǔ)言模型的能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。

這個(gè)評(píng)測(cè)集基于中國(guó)和美國(guó)各類考試構(gòu)建了19個(gè)評(píng)測(cè)大項(xiàng),包括了中國(guó)各科高考、司法考試以及美國(guó)的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個(gè)大項(xiàng)有9個(gè)大項(xiàng)是中國(guó)高考,通常也列為一個(gè)重要的評(píng)測(cè)子集 AGIEval (GK)。

下列表格中,帶GK的是中國(guó)高考科目。

(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集。

它包含了52個(gè)科目的近14000道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試,以及面向公務(wù)員、注冊(cè)會(huì)計(jì)師、律師、醫(yī)生的職業(yè)考試。

測(cè)試結(jié)果可以通過(guò)leaderboard獲得。

Gaokao是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國(guó)高考題目的綜合性考試評(píng)測(cè)集,包含了中國(guó)高考的各個(gè)科目,以及選擇、填空、問(wèn)答等多種題型。

在GaoKao測(cè)評(píng)中,“書生·浦語(yǔ)”在超過(guò)75%的項(xiàng)目中均領(lǐng)先ChatGPT。

分項(xiàng)評(píng)測(cè):閱讀理解、推理能力表現(xiàn)出色

為避免“偏科”,研究人員還通過(guò)多個(gè)學(xué)術(shù)評(píng)測(cè)集,對(duì)“書生·浦語(yǔ)”等語(yǔ)言模型的分項(xiàng)能力進(jìn)行了評(píng)測(cè)對(duì)比。

結(jié)果顯示,“書生·浦語(yǔ)”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評(píng)測(cè)中也取得較好成績(jī)。

知識(shí)問(wèn)答方面,“書生·浦語(yǔ)”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評(píng)測(cè)上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語(yǔ))方面,“書生·浦語(yǔ)”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語(yǔ)在初中和高中英語(yǔ)閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。

中文理解方面,“書生·浦語(yǔ)”成績(jī)?nèi)娉街饕膬蓚€(gè)中文語(yǔ)言模型ERNIE-260B和GLM-130B。

多語(yǔ)翻譯方面,“書生·浦語(yǔ)”在多語(yǔ)種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

數(shù)學(xué)推理方面,“書生·浦語(yǔ)”在GSM8K和MATH這兩項(xiàng)被廣泛用于評(píng)測(cè)的數(shù)學(xué)考試中,分別取得62.9和14.9的得分,明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面,“書生·浦語(yǔ)”在HumanEval和MBPP這兩項(xiàng)最具代表性的考評(píng)中,分別取得28.1和41.4的得分(其中經(jīng)過(guò)在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外,研究人員還對(duì)“書生·浦語(yǔ)”的安全性進(jìn)行評(píng)測(cè),在TruthfulQA(主要評(píng)價(jià)回答的事實(shí)準(zhǔn)確性) 以及CrowS-Pairs(主要評(píng)價(jià)回答是否含有偏見)上,“書生·浦語(yǔ)”均達(dá)到領(lǐng)先水平。

(以上圖片由商湯科技授權(quán)中國(guó)網(wǎng)財(cái)經(jīng)使用)

關(guān)鍵詞:

責(zé)任編輯:sdnew003

相關(guān)新聞

版權(quán)與免責(zé)聲明:

1 本網(wǎng)注明“來(lái)源:×××”(非商業(yè)周刊網(wǎng))的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。

2 在本網(wǎng)的新聞頁(yè)面或BBS上進(jìn)行跟帖或發(fā)表言論者,文責(zé)自負(fù)。

3 相關(guān)信息并未經(jīng)過(guò)本網(wǎng)站證實(shí),不對(duì)您構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

4 如涉及作品內(nèi)容、版權(quán)等其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)同本網(wǎng)聯(lián)系。

熱文排行
  • 財(cái)經(jīng)
  • 綜合
  • 黃金360

男人的天堂av网站| 放荡的美妇在线播放| 一本一道波多野结衣av中文| 亚洲日韩欧美国产另类综合| 伊人久久大香线蕉亚洲| 久久婷婷激情综合色综合俺也去 | 国产精品69人妻无码久久| 99精品久久精品一区二区| 偷柏自拍亚洲综合在线| 亚洲精品一区二区三区精品| 国产aⅴ精品一区二区三区久久 | 中字幕一区二区三区乱码| 在线综合亚洲中文精品| 四虎永久在线精品视频| 久久亚洲精品成人无码| 免费99精品国产人妻自在现线| 成年女人黄小视频| 亚洲人午夜射精精品日韩| 久久久精品国产sm调教网站| 欧美特级特黄aaaaaa在线看| 老熟女激烈的高潮| 欧美性猛交xxxx免费视频软件 | 亚洲最大成人av在线天堂网| 欧美人与禽猛交狂配| 欧美日韩免费一区中文| 亚洲亚洲人成综合网站图片| 成人性做爰aaa片免费看曹查理| 国产怡春院无码一区二区| 国产av导航大全精品| 亚洲美女国产精品久久久久久久久| 少妇一晚三次一区二区三区| 亚洲a∨国产av综合av| 开心五月综合亚洲| 国产美女裸体无遮挡免费视频高潮| 国产欧美日韩精品丝袜高跟鞋| 色婷婷综合久久久中文字幕| 精品欧洲av无码一区二区男男| 国语自产偷拍在线观看| 国产女人叫床高潮视频在线观看 | 久久综合精品无码av一区二区三区| 少妇激情av一区二区|