<oembed><type>rich</type><version>1.0</version><title>AkitaOnRails wrote</title><author_name>AkitaOnRails (npub1sf…nhr57)</author_name><author_url>https://yabu.me/npub1sf2se74xlzf7f7clm3dg28npaxghdy6pguzpsut30fjpwuaxrxcsrnhr57</author_url><provider_name>njump</provider_name><provider_url>https://yabu.me</provider_url><html>OpenAI lança o novo modelo O1 hoje, 12/09. O primeiro demo que ele apresenta nas redes sociais é o O1 conseguindo fazer um pequeno joguinho (muito, muito simples, coisa de um único arquivo com um único page down, não fiquem emocionados!)&#xA;&#xA;No Dia do Programador? Coincidência? I think not! 😂 &#xA;&#xA;Preparem-se que todo jornalista tá super emocionado de novo. Eu fiz pequenos testes preliminares e vou dizer que não senti tanta mudança assim comparado com o 4o anterior. Sim, parece que ele gasta mais tempo em passos intermediários, tentando quebrar problemas complexos em problemas menores, pra ver se consegue uma solução melhor. É o que chamam de &#34;chain-of-thought&#34;. E de fato, pra certos tipos de problemas, parece melhor mesmo.&#xA;&#xA;A idéia do nome &#34;O1&#34; parece ser um &#34;soft-reset&#34;. Não vai mais chamar &#34;ChatGPT 4&#34; ou &#34;ChatGPT 5&#34;, vai recomeçar do &#34;OpenAI O1&#34;, então vez o próximo seja &#34;OpenAI O2&#34;?&#xA;&#xA;Minha teoria da conspiração pessoal (coloquem chapéu de alumínio), é que eles entendem o &#34;peso&#34; que seria lançar &#34;ChatGPT 5&#34;. Eu venho falando isso faz tempo: uma versão 5 teria que ser ordens de grandeza superior ao 4, de uma forma que qualquer pessoa comum consiga ver a diferença.&#xA;&#xA;Se falharem em lançar um &#34;5&#34; superior, eles arriscam explodir a bolha de I.A. Por isso eu sinto essa &#34;relutância&#34;. Notem que eles travaram no 4. Tentaram sair com &#34;4o&#34; e agora &#34;O1&#34;, mas nada de &#34;5&#34;. Não querem se comprometer, mas também não podem deixar todo mundo esperando pra sempre.&#xA;&#xA;É uma saída de marketing. O O1 parece mesmo superior ao 4o, mas benchmarks não servem pra nada. Você pode simplesmente enviesar o treinamento pra fazer passar melhor em testes de benchmark. O lance são testes reais.&#xA;&#xA;E em testes de código, eu não senti tanta diferença em relação ao 4o. Lógico, tem que testar mais tempo, com problemas mais diversos, por enquanto é só uma anedota. Mas de novo, não senti nenhuma grande diferença pra justificar jornalista falando &#34;isso vai mudar o mundo!!&#34; e toda essa emoção.&#xA;&#xA;Até peguei um textão de um jornalista e passei pelo O1 pra ver o que ele acha. Alguns trechos que achei engraçados:&#xA;&#xA;O1: &#34;Check OpenAI&#39;s official channels to confirm the release of &#34;OpenAI-01&#34; or &#34;o1&#34; and gather accurate details about its capabilities.&#34;&#xA;&#xA;OpenAI precisa começar a treinar os modelos pra saberem seus próprios nomes e características pelo menos. Eles nunca sabem!&#xA;&#xA;O1: &#34;Benchmark Results: Re-examine the reported benchmark performances, such as the 83% score on the International Mathematics Olympiad (IMO) and the Elo rating of 1807 in coding competitions. Ensure these figures are accurate and sourced from credible evaluations.&#xA;&#xA;Comparisons with Human Experts: While it&#39;s notable if the model performs similarly to PhD students on challenging tasks, it&#39;s important to contextualize this achievement and acknowledge any limitations.&#34;&#xA;&#xA;O próprio O1 manda tomar cuidado quando se fala de benchmarks e não assumir &#34;uau, é mais inteligente que um PhD do MIT&#34;&#xA;&#xA;O1: &#34;AGI Timeline: Exercise caution when predicting the arrival of Artificial General Intelligence (AGI) by 2025. Acknowledge the speculative nature of such predictions and the ongoing debates within the AI community.&#34;&#xA;&#xA;Obviamente, jornalista emocionado de novo falando &#34;AGI está perto&#34; e o próprio O1 pelo menos tem bom senso de falar pra baixar o tom.&#xA;&#xA;O1: &#34;Avoid Hyperbole: Statements like &#34;It will change the world&#34; and &#34;It&#39;s a day to celebrate&#34; may come across as overly enthusiastic. Strive for a neutral tone that presents facts and lets readers form their own opinions.&#xA;&#xA;Balanced Viewpoint: Acknowledge any limitations, ethical considerations, or areas where further development is needed.&#34;&#xA;&#xA;Achei super legal que o O1 avaliou o tom do jornalista como entusiástico demais, pra ser mais neutro e pra explicar também as limitações e áreas de melhoria. Até a porr de uma GenAI tem mais bom senso que um jornalista médio. Tá foda.&#xA;&#xA;Testem vocês mesmos e me digam o que acharam: sentiram muita diferença em relação ao 4o?&#xA;&#xA;https://openai.com/o1/</html></oembed>