AkitaOnRails wrote

rich1.0AkitaOnRails wroteAkitaOnRails (npub1sf…nhr57)https://yabu.me/npub1sf2se74xlzf7f7clm3dg28npaxghdy6pguzpsut30fjpwuaxrxcsrnhr57njumphttps://yabu.meOpenAI lança o novo modelo O1 hoje, 12/09. O primeiro demo que ele apresenta nas redes sociais é o O1 conseguindo fazer um pequeno joguinho (muito, muito simples, coisa de um único arquivo com um único page down, não fiquem emocionados!) No Dia do Programador? Coincidência? I think not! 😂 Preparem-se que todo jornalista tá super emocionado de novo. Eu fiz pequenos testes preliminares e vou dizer que não senti tanta mudança assim comparado com o 4o anterior. Sim, parece que ele gasta mais tempo em passos intermediários, tentando quebrar problemas complexos em problemas menores, pra ver se consegue uma solução melhor. É o que chamam de "chain-of-thought". E de fato, pra certos tipos de problemas, parece melhor mesmo. A idéia do nome "O1" parece ser um "soft-reset". Não vai mais chamar "ChatGPT 4" ou "ChatGPT 5", vai recomeçar do "OpenAI O1", então vez o próximo seja "OpenAI O2"? Minha teoria da conspiração pessoal (coloquem chapéu de alumínio), é que eles entendem o "peso" que seria lançar "ChatGPT 5". Eu venho falando isso faz tempo: uma versão 5 teria que ser ordens de grandeza superior ao 4, de uma forma que qualquer pessoa comum consiga ver a diferença. Se falharem em lançar um "5" superior, eles arriscam explodir a bolha de I.A. Por isso eu sinto essa "relutância". Notem que eles travaram no 4. Tentaram sair com "4o" e agora "O1", mas nada de "5". Não querem se comprometer, mas também não podem deixar todo mundo esperando pra sempre. É uma saída de marketing. O O1 parece mesmo superior ao 4o, mas benchmarks não servem pra nada. Você pode simplesmente enviesar o treinamento pra fazer passar melhor em testes de benchmark. O lance são testes reais. E em testes de código, eu não senti tanta diferença em relação ao 4o. Lógico, tem que testar mais tempo, com problemas mais diversos, por enquanto é só uma anedota. Mas de novo, não senti nenhuma grande diferença pra justificar jornalista falando "isso vai mudar o mundo!!" e toda essa emoção. Até peguei um textão de um jornalista e passei pelo O1 pra ver o que ele acha. Alguns trechos que achei engraçados: O1: "Check OpenAI's official channels to confirm the release of "OpenAI-01" or "o1" and gather accurate details about its capabilities." OpenAI precisa começar a treinar os modelos pra saberem seus próprios nomes e características pelo menos. Eles nunca sabem! O1: "Benchmark Results: Re-examine the reported benchmark performances, such as the 83% score on the International Mathematics Olympiad (IMO) and the Elo rating of 1807 in coding competitions. Ensure these figures are accurate and sourced from credible evaluations. Comparisons with Human Experts: While it's notable if the model performs similarly to PhD students on challenging tasks, it's important to contextualize this achievement and acknowledge any limitations." O próprio O1 manda tomar cuidado quando se fala de benchmarks e não assumir "uau, é mais inteligente que um PhD do MIT" O1: "AGI Timeline: Exercise caution when predicting the arrival of Artificial General Intelligence (AGI) by 2025. Acknowledge the speculative nature of such predictions and the ongoing debates within the AI community." Obviamente, jornalista emocionado de novo falando "AGI está perto" e o próprio O1 pelo menos tem bom senso de falar pra baixar o tom. O1: "Avoid Hyperbole: Statements like "It will change the world" and "It's a day to celebrate" may come across as overly enthusiastic. Strive for a neutral tone that presents facts and lets readers form their own opinions. Balanced Viewpoint: Acknowledge any limitations, ethical considerations, or areas where further development is needed." Achei super legal que o O1 avaliou o tom do jornalista como entusiástico demais, pra ser mais neutro e pra explicar também as limitações e áreas de melhoria. Até a porr de uma GenAI tem mais bom senso que um jornalista médio. Tá foda. Testem vocês mesmos e me digam o que acharam: sentiram muita diferença em relação ao 4o? https://openai.com/o1/