Join Nostr
2025-02-24 06:57:56 UTC

Ryan He (帳號已遷移到其他站台) on Nostr: OpenAI 研究人員 發現 AI 無法解決大多數 程式設計 問題 OpenAI ...

OpenAI 研究人員 發現 AI 無法解決大多數 程式設計 問題 https://futurism.com/openai-researchers-coding-fail

OpenAI 研究人員在新論文中指出,現今最先進的大型語言模型仍難以取代人類工程師,其在上 Upwork 平台上超過 1,400 個軟體工程任務的評估中,僅能處理表層問題,無法準確識別與解析大型專案中潛藏的 bug 與根本原因。論文利用新開發的 SWE-Lancer 基準測試三款模型,包括 OpenAI 自家 o1 reasoning 模型、GPT-4o 與 Anthropic 的 Claude 3.5 Sonnet,評估在解決單一問題與管理性任務上的效能,且各模型皆無法藉由存取網路取得答案。

儘管各模型在執行速度上遠超人類,但結果顯示,它們對於缺陷的廣泛性與背景理解不足,所提供的解決方案常常不正確或不夠全面。Claude 3.5 Sonnet 在測試中表現優於其他兩款 OpenAI 模型,甚至在經濟收益上也更勝一籌,但其大部分答案仍存在錯誤。研究人員強調,在實際程式撰寫任務上,無論是哪款模型,都必須具備更高的可靠性才能獲得信任。

https://news.ycombinator.com/item?id=43155825