OpenAI 研究人員發現 AI 無法解決大多數程式設計問題 OpenAI ...

OpenAI 研究人員發現 AI 無法解決大多數程式設計問題 https://futurism.com/openai-researchers-coding-fail

OpenAI 研究人員在新論文中指出，現今最先進的大型語言模型仍難以取代人類工程師，其在上 Upwork 平台上超過 1,400 個軟體工程任務的評估中，僅能處理表層問題，無法準確識別與解析大型專案中潛藏的 bug 與根本原因。論文利用新開發的 SWE-Lancer 基準測試三款模型，包括 OpenAI 自家 o1 reasoning 模型、GPT-4o 與 Anthropic 的 Claude 3.5 Sonnet，評估在解決單一問題與管理性任務上的效能，且各模型皆無法藉由存取網路取得答案。

儘管各模型在執行速度上遠超人類，但結果顯示，它們對於缺陷的廣泛性與背景理解不足，所提供的解決方案常常不正確或不夠全面。Claude 3.5 Sonnet 在測試中表現優於其他兩款 OpenAI 模型，甚至在經濟收益上也更勝一籌，但其大部分答案仍存在錯誤。研究人員強調，在實際程式撰寫任務上，無論是哪款模型，都必須具備更高的可靠性才能獲得信任。

https://news.ycombinator.com/item?id=43155825

Ryan He (帳號已遷移到其他站台) on Nostr: OpenAI 研究人員 發現 AI 無法解決大多數 程式設計 問題 OpenAI ...

Ryan He (帳號已遷移到其他站台) on Nostr: OpenAI 研究人員發現 AI 無法解決大多數程式設計問題 OpenAI ...