首頁 > 熱點 > 正文

【全球熱聞】挖掘GPT的隱藏實力就靠它了

2023-05-09 16:44:47來源：引領外匯網

挖掘GPT的隱藏實力就靠它了,GPT-4回答的準確率從68%提高到85%。

GPT-4回答的準確率從68%提高到85%。

編者按：本文來自微信公眾號“量子位”（ID:QbitAI），作者：克雷西，創業邦經授權發布。

【資料圖】

GPT-4回答的準確率從68%提高到85%。

這個GitHub新項目，能讓ChatGPT完成復雜任務，GPT3.5和GPT-4都支持。

它通過將問題拆解，并調用外部資源，提高了GPT的工作能力。

在它的調教下，GPT-4回答的準確率從68%提高到了85%。

這個項目名叫SmartGPT，這個名字很直白地告訴了我們它的作用。

無論是直觀感受還是量化數據，GPT在它的加持之下回答正確率都有提高。

我們不妨看看幾個經典的問題。

這是一個來自OpenAI Playground的經典問題。

只見GPT一頓操作猛如虎，又是推理又是列方程……

然而最后給出的答案是30個小時。

而經過SmartGPT調教之后，不僅得到了正確答案，還指出了此前的思路為什么會出錯。

再來舉個例子

，同樣是來自于OpenAI Playground的問題。

GPT的答案嘛……麻煩不說，能不能解釋下第五步的2升是怎么剩下的？

經過調教之后嘛……雖然不理解為什么不直接用6升的，但也有很大進步了。

我們也用倒拔垂楊柳的問題進行了測試，提供了諸葛亮、孫悟空和林黛玉三個選項。

第一輪，GPT-4給出的答案是……孫悟空。

經過調教之后，GPT-4終于發現了三個選項都是錯誤的。

同時還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節。

（《西游記》第二十五回中，孫悟空在五莊觀因憤怒將人參果樹拔倒）

需要說明的是，由于沒有GPT-4的API，測試是按照開發者介紹的方法手工完成的。

當然了，個例并不能說明它的表現，還是要用數據集測試一下。

開發者使用了MMLU數據集分別對調教前后的GPT-4進行了測試。

結果顯示，未經調教的版本只答對了68%，而調教后的版本答對了85%。

順便提一句，真人專家在測試中的平均成績是89.8%。

數學方面，同樣使用MMLU數據集進行測試，開發者從中選擇了15個大學難度的數學問題。

雖然準確率只有60%，但也是及格了，而且比原版GPT的40%已經好了太多。

化整為零，逐步解決

開發者將SmartGPT中的環節形象地比作了職場中的角色：

“甲方”：SmartGPT用戶。“經理”：和“甲方”對接，把任務拆分成高級子任務并逐一匯報給“老板”。“老板”：制定計劃，將高級子任務再次拆分，并分發給“員工”。“員工”：接收任務，編寫偽代碼，交給“小黃人”執行。“小黃人”：將偽代碼優化成LUA腳本并運行。

作為“甲方”的用戶，需要做的只是像使用普通GPT一樣輸入自己的問題，而不必給出額外指令。

SmartGPT會幫助用戶把問題拆分，然后按照步驟提交給GPT。

此前有人發現，在輸入給GPT的指令中加入“let’s think step by step”可以提高回復的準確率。

同時，GPT-4具有回溯能力，能夠發現并指出自己此前回答中的錯誤。

以上兩個特性為SmartGPT的工作提供了重要支撐。

△ SmartGPT工作流程圖

在用戶輸入完指令后，SmartGPT對其進行處理拆分，包括添加“let’s think step by step”類似的表述。

然后它會將處理好的指令傳至GPT的API，并重復多次獲取不同的答案。

接著，SmartGPT會向API發送要求其回溯答案并選擇最優解的指令。

最后，將GPT自己選擇的最佳答案展示給用戶。

上述步驟受到了三篇學術論文的啟發（圖中白框）。

這三篇論文的內容分別關于“鏈式提示方式”、“動態記憶及讓LLM自我回溯”和“用對話提高LLM完成度”。

和其他工具相比，SmartGPT好在哪

AutoGPT等工具同樣可以用來優化GPT，SmartGPT比它們好在哪里呢？

由于其工作原理是將任務進行拆分，會形成邏輯鏈條，因此SmartGPT擁有更強大的推理能力。

實用性方面，SmartGPT由獨立的子模塊組成，使用者可以對它們進行任意排列、組合和刪改。

此外，無論對于用戶還是開發人員，SmartGPT的配置過程都更為簡單。

不過開發者也坦言，這個項目剛推出不久，因此穩定性有待考證，在內存優化方面還有所欠缺，消耗的環境資源也更多。

在項目推出之后，有網友表示我們低估了GPT的潛力，甚至包括OpenAI自己。

那么，你期待GPT未來的表現嗎？

SmartGPT目前暫無開箱可用版本，需要自行在Linux環境搭建，動手能力強的讀者可根據下面的項目頁面中的指示體驗：

項目地址：https://github.com/Cormanz/smartgpt

項目涉及到的論文：[1]. https://arxiv.org/abs/2305.02897[2]. https://arxiv.org/abs/2303.11366[3]. https://arxiv.org/abs/2303.17071

參考鏈接：

[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU

[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

本文（含圖片）為合作媒體授權創業邦轉載，不代表創業邦立場，轉載請聯系原作者。如有任何疑問，請聯系editor@cyzone.cn。

關鍵詞：

責任編輯：hnmd004

【全球熱聞】挖掘GPT的隱藏實力就靠它了2023-05-09
人們常說的撒拉嘿是什么意思？韓語的日常用2023-05-09
電表怎么讀數？電表讀數方法2023-05-09
庫里斯是什么梗？抖音庫里絲是什么意思？2023-05-09
銀行貸款還不起能否辦理停息掛賬？信用卡逾2023-05-09
太行山在中國什么位置？云臺山相關資料介紹2023-05-09
巨蟹女在感情上也是充滿了波折久而久之想2023-05-09
深圳大運會是哪一年？世界公認的球王都有誰2023-05-09
湖南省長沙市醫保發票丟失如何保險？醫院門2023-05-09
管理費用指的是什么? 管理費2023-05-09
免職和撤職有什么區別？免除職務后怎么安排2023-05-09
阿奎羅年薪多少？2023歐洲杯在哪個國家舉辦2023-05-09
信用卡逾期還不上怎么辦？信用卡減免政策是2023-05-09
谷歌將對現有的搜索引擎進行優化升級你知2023-05-09
商河特產有哪些商河什么特產出名？2023-05-09
商河特產有哪些商河位于哪里？2023-05-09
輔助性T細胞是一種T細胞？主要組織相容性復2023-05-09
紙的來源歷史介紹蔡倫為什么是現代造紙術2023-05-09
有信用卡為什么征信空白？五年前的逾期還會2023-05-09
那些踐踏過天蝎女自尊心的人會被她們釘在心2023-05-09
網絡營銷是學什么的?網絡營銷專業畢業生的2023-05-09
隔夜酒駕車屬不屬于酒駕行為？隔夜酒駕的處2023-05-09
孫子是第幾順位繼承人？繼承人第三順位具2023-05-09
魯大師尊享版推出電腦防盜助手：支持定位 2023-05-09
趨勢線的基本概念是什么？股票短線操作的意2023-05-09
信用卡逾期還款后需要銷卡嗎？信用卡逾期還2023-05-09
關于勞動仲裁和訴訟的區別有哪些勞動爭議2023-05-09
紅籌股表示什么含義的內容? 紅籌2023-05-09
淘金幣是干什么用的？淘金幣可以抵錢嗎？2023-05-09
騰訊持股的公司有哪些？騰訊老板叫什么名字2023-05-09

精彩推薦

閱讀排行

股票提現多長時間能到賬？股票的...
蝸居結局是什么？蝸居結局小貝最...
網貸歸零指的是什么?網貸平臺清...
現金支票的有效期是多久？現金支...
玉的手鐲怎么挑選？玉石手鐲的鑒...
共勉是什么意思什么時候用？共勉...
航運指數是什么？航運運價指數怎...
打卡古都文化地標新華社聚焦西...
西安高新區50項事項實現全程網辦...
【全球新要聞】塑造城市格調西...

銀行短期貸款利率是多少？銀行短期貸款最短時間是多久？
上一篇2023-05-09 15:52:53

猫咪社区免费资源在线观看_色屁屁草草影院ccyycom_免费的av不用播放器的_国产精品久久成人网站_中文字幕与邻居少妇性刺激_婷婷丁香久久

【全球熱聞】挖掘GPT的隱藏實力就靠它了

精彩推薦

男生學文科就業率最高專業?2023文科生最吃香的專業有哪些?

閱讀排行

推薦閱讀