Ryan He (帳號已遷移到其他站台) on Nostr: OpenAI 研究人員 發現 AI 無法解決大多數 程式設計 問題 OpenAI ...
OpenAI 研究人員 發現 AI 無法解決大多數 程式設計 問題
https://futurism.com/openai-researchers-coding-failOpenAI 研究人員在新論文中指出,現今最先進的大型語言模型仍難以取代人類工程師,其在上 Upwork 平台上超過 1,400 個軟體工程任務的評估中,僅能處理表層問題,無法準確識別與解析大型專案中潛藏的 bug 與根本原因。論文利用新開發的 SWE-Lancer 基準測試三款模型,包括 OpenAI 自家 o1 reasoning 模型、GPT-4o 與 Anthropic 的 Claude 3.5 Sonnet,評估在解決單一問題與管理性任務上的效能,且各模型皆無法藉由存取網路取得答案。
儘管各模型在執行速度上遠超人類,但結果顯示,它們對於缺陷的廣泛性與背景理解不足,所提供的解決方案常常不正確或不夠全面。Claude 3.5 Sonnet 在測試中表現優於其他兩款 OpenAI 模型,甚至在經濟收益上也更勝一籌,但其大部分答案仍存在錯誤。研究人員強調,在實際程式撰寫任務上,無論是哪款模型,都必須具備更高的可靠性才能獲得信任。
https://news.ycombinator.com/item?id=43155825Published at
2025-02-24 06:57:56 UTCEvent JSON
{
"id": "3f08b6786aa44a15925657726b4f59d84675c4638f4da0fbcbbb7c8886ba2655",
"pubkey": "7657495662e29067eab2216f44db783ff63895cd3cf0fa925b4029cd95fe7950",
"created_at": 1740380276,
"kind": 1,
"tags": [
[
"proxy",
"https://pastwind.top/notes/a4m9sl61uf",
"activitypub"
],
[
"L",
"pink.momostr"
],
[
"l",
"pink.momostr.activitypub:https://pastwind.top/notes/a4m9sl61uf",
"pink.momostr"
],
[
"-"
]
],
"content": "OpenAI 研究人員 發現 AI 無法解決大多數 程式設計 問題 https://futurism.com/openai-researchers-coding-fail\n\nOpenAI 研究人員在新論文中指出,現今最先進的大型語言模型仍難以取代人類工程師,其在上 Upwork 平台上超過 1,400 個軟體工程任務的評估中,僅能處理表層問題,無法準確識別與解析大型專案中潛藏的 bug 與根本原因。論文利用新開發的 SWE-Lancer 基準測試三款模型,包括 OpenAI 自家 o1 reasoning 模型、GPT-4o 與 Anthropic 的 Claude 3.5 Sonnet,評估在解決單一問題與管理性任務上的效能,且各模型皆無法藉由存取網路取得答案。\n\n儘管各模型在執行速度上遠超人類,但結果顯示,它們對於缺陷的廣泛性與背景理解不足,所提供的解決方案常常不正確或不夠全面。Claude 3.5 Sonnet 在測試中表現優於其他兩款 OpenAI 模型,甚至在經濟收益上也更勝一籌,但其大部分答案仍存在錯誤。研究人員強調,在實際程式撰寫任務上,無論是哪款模型,都必須具備更高的可靠性才能獲得信任。\n\nhttps://news.ycombinator.com/item?id=43155825",
"sig": "8d7217470a9eb41a1fa30bba6c4cd3fcd52471befdc7cda9039a2c458663bbab0d1b70ed24ba5373ac46ebbeb6d7aa0c9bac3e59d6fbdf910c9c00ada8bf48a8"
}