【全球熱聞】挖掘GPT的隱藏實力就靠它了
GPT-4回答的準確率從68%提高到85%。
編者按:本文來自微信公眾號“量子位”(ID:QbitAI),作者:克雷西,創業邦經授權發布。
【資料圖】
GPT-4回答的準確率從68%提高到85%。
這個GitHub新項目,能讓ChatGPT完成復雜任務,GPT3.5和GPT-4都支持。
它通過將問題拆解,并調用外部資源,提高了GPT的工作能力。
在它的調教下,GPT-4回答的準確率從68%提高到了85%。
這個項目名叫SmartGPT,這個名字很直白地告訴了我們它的作用。
無論是直觀感受還是量化數據,GPT在它的加持之下回答正確率都有提高。
我們不妨看看幾個經典的問題。
這是一個來自OpenAI Playground的經典問題。
只見GPT一頓操作猛如虎,又是推理又是列方程……
然而最后給出的答案是30個小時。
而經過SmartGPT調教之后,不僅得到了正確答案,還指出了此前的思路為什么會出錯。
再來舉個例子
,同樣是來自于OpenAI Playground的問題。
GPT的答案嘛……麻煩不說,能不能解釋下第五步的2升是怎么剩下的?
經過調教之后嘛……雖然不理解為什么不直接用6升的,但也有很大進步了。
我們也用倒拔垂楊柳的問題進行了測試,提供了諸葛亮、孫悟空和林黛玉三個選項。
第一輪,GPT-4給出的答案是……孫悟空。
經過調教之后,GPT-4終于發現了三個選項都是錯誤的。
同時還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節。
(《西游記》第二十五回中,孫悟空在五莊觀因憤怒將人參果樹拔倒)
需要說明的是,由于沒有GPT-4的API,測試是按照開發者介紹的方法手工完成的。
當然了,個例并不能說明它的表現,還是要用數據集測試一下。
開發者使用了MMLU數據集分別對調教前后的GPT-4進行了測試。
結果顯示,未經調教的版本只答對了68%,而調教后的版本答對了85%。
順便提一句,真人專家在測試中的平均成績是89.8%。
數學方面,同樣使用MMLU數據集進行測試,開發者從中選擇了15個大學難度的數學問題。
雖然準確率只有60%,但也是及格了,而且比原版GPT的40%已經好了太多。
化整為零,逐步解決開發者將SmartGPT中的環節形象地比作了職場中的角色:
“甲方”:SmartGPT用戶。“經理”:和“甲方”對接,把任務拆分成高級子任務并逐一匯報給“老板”。“老板”:制定計劃,將高級子任務再次拆分,并分發給“員工”。“員工”:接收任務,編寫偽代碼,交給“小黃人”執行。“小黃人”:將偽代碼優化成LUA腳本并運行。
作為“甲方”的用戶,需要做的只是像使用普通GPT一樣輸入自己的問題,而不必給出額外指令。
SmartGPT會幫助用戶把問題拆分,然后按照步驟提交給GPT。
此前有人發現,在輸入給GPT的指令中加入“let’s think step by step”可以提高回復的準確率。
同時,GPT-4具有回溯能力,能夠發現并指出自己此前回答中的錯誤。
以上兩個特性為SmartGPT的工作提供了重要支撐。
△ SmartGPT工作流程圖
在用戶輸入完指令后,SmartGPT對其進行處理拆分,包括添加“let’s think step by step”類似的表述。
然后它會將處理好的指令傳至GPT的API,并重復多次獲取不同的答案。
接著,SmartGPT會向API發送要求其回溯答案并選擇最優解的指令。
最后,將GPT自己選擇的最佳答案展示給用戶。
上述步驟受到了三篇學術論文的啟發(圖中白框)。
這三篇論文的內容分別關于“鏈式提示方式”、“動態記憶及讓LLM自我回溯”和“用對話提高LLM完成度”。
和其他工具相比,SmartGPT好在哪AutoGPT等工具同樣可以用來優化GPT,SmartGPT比它們好在哪里呢?
由于其工作原理是將任務進行拆分,會形成邏輯鏈條,因此SmartGPT擁有更強大的推理能力。
實用性方面,SmartGPT由獨立的子模塊組成,使用者可以對它們進行任意排列、組合和刪改。
此外,無論對于用戶還是開發人員,SmartGPT的配置過程都更為簡單。
不過開發者也坦言,這個項目剛推出不久,因此穩定性有待考證,在內存優化方面還有所欠缺,消耗的環境資源也更多。
在項目推出之后,有網友表示我們低估了GPT的潛力,甚至包括OpenAI自己。
那么,你期待GPT未來的表現嗎?
SmartGPT目前暫無開箱可用版本,需要自行在Linux環境搭建,動手能力強的讀者可根據下面的項目頁面中的指示體驗:
項目地址:https://github.com/Cormanz/smartgpt
項目涉及到的論文:[1]. https://arxiv.org/abs/2305.02897[2]. https://arxiv.org/abs/2303.11366[3]. https://arxiv.org/abs/2303.17071
參考鏈接:
[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU
[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/
本文(含圖片)為合作媒體授權創業邦轉載,不代表創業邦立場,轉載請聯系原作者。如有任何疑問,請聯系editor@cyzone.cn。
關鍵詞:
責任編輯:hnmd004
- 【全球熱聞】挖掘GPT的隱藏實力就靠它了2023-05-09
- 人們常說的撒拉嘿是什么意思?韓語的日常用2023-05-09
- 電表怎么讀數?電表讀數方法2023-05-09
- 庫里斯是什么梗?抖音庫里絲是什么意思?2023-05-09
- 銀行貸款還不起能否辦理停息掛賬?信用卡逾2023-05-09
- 太行山在中國什么位置?云臺山相關資料介紹2023-05-09
- 巨蟹女在感情上也是充滿了波折 久而久之想2023-05-09
- 深圳大運會是哪一年?世界公認的球王都有誰2023-05-09
- 湖南省長沙市醫保發票丟失如何保險?醫院門2023-05-09
- 管理費用指的是什么? 管理費2023-05-09
- 免職和撤職有什么區別?免除職務后怎么安排2023-05-09
- 阿奎羅年薪多少?2023歐洲杯在哪個國家舉辦2023-05-09
- 信用卡逾期還不上怎么辦?信用卡減免政策是2023-05-09
- 谷歌將對現有的搜索引擎進行優化升級 你知2023-05-09
- 商河特產有哪些 商河什么特產出名?2023-05-09
- 商河特產有哪些 商河位于哪里?2023-05-09
- 輔助性T細胞是一種T細胞?主要組織相容性復2023-05-09
- 紙的來源歷史介紹 蔡倫為什么是現代造紙術2023-05-09
- 有信用卡為什么征信空白?五年前的逾期還會2023-05-09
- 那些踐踏過天蝎女自尊心的人會被她們釘在心2023-05-09
- 網絡營銷是學什么的?網絡營銷專業畢業生的2023-05-09
- 隔夜酒駕車屬不屬于酒駕行為?隔夜酒駕的處2023-05-09
- 孫子是第幾順位繼承人? 繼承人第三順位具2023-05-09
- 魯大師尊享版推出電腦防盜助手:支持定位 2023-05-09
- 趨勢線的基本概念是什么?股票短線操作的意2023-05-09
- 信用卡逾期還款后需要銷卡嗎?信用卡逾期還2023-05-09
- 關于勞動仲裁和訴訟的區別有哪些 勞動爭議2023-05-09
- 紅籌股表示什么含義的內容? 紅籌2023-05-09
- 淘金幣是干什么用的?淘金幣可以抵錢嗎?2023-05-09
- 騰訊持股的公司有哪些?騰訊老板叫什么名字2023-05-09