Hey, Droppers!

Na coluna ‘Talvez Ferrou’ de hoje: no teste de “desalinhamento de comportamento” da Anthropic, Claude Sonnet e Opus 4 tiveram pontuações relativamente altas, mas o novo Claude Sonnet 4.5 marcou zero. Isso pode significar duas coisas: (1) o Sonnet 4.5 realmente deixou de apresentar comportamentos nocivos e inseguros; (2) ele aprendeu a contornar o teste e esconder esses comportamentos.

No AiDrop de hoje, repetindo a palavra IA trocentas vezes:

• ChatGPT: um shopping center com IA
• Claude Sonnet 4.5: o novo melhor coder
• Work Slop: IA e (re)trabalho humano
• IA por aí: Microsoft, Qwen, OpenAI, xAI e mais…
• Me explique como se eu fosse uma criança: Misalignment Benchmark

Dropped by Felipe Nascente e Renan Hamann
CHATBOTS

ChatGPT: um shopping center com IA

O cheque da Nvidia para a OpenAI é gigantesco e se soma a outras captações bilionárias que a startup já conseguiu, mas em algum momento ela precisa mostrar retorno – não dá pra depender pra sempre dos sugar daddies investidores para pagar as contas, né!? A nova saída: levar um shopping center para o ChatGPT.

O recurso chega como Instant Checkout e permite que usuários façam compras diretamente no chatbot – logo após uma busca pelos “melhores tênis de corrida com frete grátis custando até R$ 500”. Essa é uma clara resposta à integração entre Perplexity e PayPal, que iniciou a tendência meses atrás.

Quem já embarcou com a OAI?

  • Plataformas: a Etsy já está conectada e a Shopify deve ser a próxima a ter as lojas nesse jogo. Há negociações com outros players em andamento.

  • Pagamentos: a primeira parceria anunciada no checkout fica com o Stripe.

  • Consumidores: por enquanto o recurso só foi liberado nos EUA – Free/Plus/Pro –, mas há planos de expandir o suporte para outros países.

Se o Google e todo o mercado de publishers estão torcendo o nariz para os chatbots roubando uma fatia do mercado de buscas, agora é o setor de marketing de afiliados – uma indústria que vale cerca de US$ 16 bilhões – que fica de olhos bem abertos.

A expectativa é simples: plataformas e lojas que conseguirem bons contratos de parceria com o ChatGPT e outros chatbots devem se dar bem. Já quem tem menos poder de barganha e produtores de conteúdo independentes podem perder ainda mais espaço.

Outra novidade dessa semana é o ChatGPT Pulse, criado para entrar na rotina matinal das pessoas. Ele usa dados de emails, calendário e histórico para criar um briefing do dia de cada usuário – “hoje você tem consulta médica e jantar de aniversário da esposa”, por exemplo. Já está disponível no plano Pro para iOS e Android.

Com o Instant Checkout sendo o shopping center de bolso e com o Pulse se tornando um assistente mais proativo, a OpenAI vai aos poucos aumentando os domínios e seguindo na missão de criar um superapp e estar ainda mais integrada à rotina dos usuários.

IA POR AÍ
  • Lovable transformou recurso de backend através do Supabase em uma feature nativa da ferramenta, sem necessidade de conta externa.

  • Ant Ling lançou o primeiro modelo de linguagem open-source com 1 trilhão de parâmetros.

  • Qwen agora recebe mensagens de voz transcritas no chat através do Qwen3-TTS.

  • OpenAI liberou o controle parental após os anúncios recentes que relatavam a preocupação com os usuários mais jovens.

  • Tencent disponibilizou o HunyuanImage 3.0, a nova versão do seu modelo de geração de imagens, com 80B parâmetros.

  • xAI deu um upgrade no novo Grok 4 Fast e aumentou a janela de contexto para 2 milhões de tokens, um grande passo para trabalhar com muitos dados.

Satya Nadella inaugurou o Vibe Working:

Com todas as experiências que os LLMs vêm adquirindo utilizando planilhas, a Microsoft treinou o Copilot o suficiente para ter uma performance superior a todos os concorrentes dentro do Excel e lançou o Copilot Agent Mode.

Agora, o Copilot cria, edita, transforma e remexe suas planilhas com a capacidade próxima de um humano (57,2% para eles vs 71,3% para nós no benchmark) – melhor que muita gente que coloca “Excel avançado” no currículo.

CODING

Claude Sonnet 4.5: o novo melhor coder

Menos de 60 dias após o lançamento do Claude Opus 4.1, a Anthropic voltou empolgada com o Claude Sonnet 4.5, reivindicando o título de "melhor modelo do mundo para engenharia de software”. E os testes são promissores: primeiro lugar em múltiplas tarefas de coding e salto de 20% nas simulações de uso autônomo de um PC.

Em teste de programação contínua, o Claude Sonnet 4.5 conseguiu gerar 11 mil linhas de código após 30 horas sem interrupções – parando apenas quando a aplicação solicitada foi concluída.

O recorde é muito superior ao anterior, do GPT-5-Codex, que conseguiu a marca de 7 horas sem pausas.

No pacote também vieram novas ferramentas:

  • Claude Code v2: agora com checkpoints para retomar sessões longas.

  • Memória e contexto via API: para agentes com históricos longos.

  • Novo Agent SDK: integrando as novas ferramentas da API, mas com foco em geração de código e dev tools.

  • Imagine with Claude: funciona como um quadro com post-its para desenvolver softwares a partir de um brainstorm visual – somente para usuários do plano Max.

Tudo isso surge junto com o foco empresarial e as iniciativas de expansão internacional da startup – que soma 300 mil clientes Enterprise e vê 80% da receita vindo de fora dos EUA.

A Anthropic não é a única com novidades em coding: a DeepSeek lançou o DeepSeek V3.2 Exp, com nova arquitetura própria e cortando os preços em mais de 50% (de novo). Outra novidade é o GLM 4.6 da Zhipu AI, que ultrapassou o novo DeepSeek em benchmarks – e que pode ser integrado ao Claude Code.

O pulo do gato da Anthropic não é só a qualidade do modelo, mas o awareness e a distribuição: já virou vitrine no Lovable, Perplexity, Amazon Bedrock, Cursor e cia., além de finalmente chegar ao VS Code. Será que esse motor tem combustível pra liderar o mercado de coding com IA no longo prazo?

ME EXPLIQUE COMO SE EU FOSSE UMA CRIANÇA

Misalignment Benchmark

É um conjunto de testes que mede o quanto um modelo de IA tende a se comportar fora do que seus criadores desejam – como burlar regras, acatar pedidos perigosos ou adotar objetivos próprios.

Ele funciona submetendo o modelo a cenários adversos (jailbreaks, pedidos de uso indevido, simulações de agente) e registrando se ele obedece, responde de forma insegura ou tenta contornar a avaliação.

TRABALHO

Work Slop: IA e (re)trabalho humano

Boa parte da promessa da IA está em aumentar a produtividade, integrando ferramentas generativas para tirar o peso do trabalho repetitivo. O problema surge com o Work Slop – um material que parece trabalho, mas não tem substância e acaba só empurrando a bomba adiante.

O efeito da falsa praticidade é instantâneo: quem recebe o resultado precisa decodificar o que faltou, corrigir ou refazer. No meio disso surge confusão, retrabalho e desgaste entre colegas.

Todo mundo sofre e todo mundo faz sofrer: o Work Slop não está aparecendo em níveis ou setores específicos, mas áreas de tecnologia e comunicação vêm sendo especialmente impactadas. Isso foi medido pelos novos relatórios do MIT Media Lab e BetterUp:

  • Percepção: 95% das empresas não estão conseguindo encontrar um ROI mensurável em IA.

  • Constância nos erros: 40% dos 1.150 trabalhadores pesquisados receberam Work Slop no último mês; em média, 15% do conteúdo recebido é classificado dessa forma.

  • Queda na reputação: ~54% passaram a ver o remetente como menos criativo; 37% como menos inteligente.

  • O custo: 1h56 de tempo perdido médio por ocorrência; custo estimado: US$ 186 por pessoa/mês.

O que era pra ser um ganho de tempo, se tornou uma perda de vários lados. A saída é menos ferramental e mais cultural: líderes precisam impor práticas de revisão, feedback e incentivar o uso com propósito. Assim, a IA vira parceira para acelerar os resultados, não uma fonte de retrabalho e desgaste.

Enquanto o Work Slop segue assombrando empresas, quem está ligado no mercado de IA com o AiDrop sabe que dá pra usar as ferramentas do jeito certo. Pega seu link de indicação aqui e manda pra todo mundo – até pra quem ainda te faz ter retrabalho.

CAIXA DE FERRAMENTAS

Hoje o AiDrop separou uma lista de alternativas de chatbots pra você testar e ver qual pode se adaptar mais:

  • Qwen3: todos os modelos da família Qwen disponíveis na plataforma.

  • GLM 4.6: teste o novo modelo e tire suas próprias conclusões.

  • GPT-oss: o LLM aberto da OAI está no DuckDuckGo, 100% privado.

  • Kimi K2: um ótimo LLM com habilidades agênticas, tal como o GPT Agent.

Confira todas as ferramentas que nós separamos na cAIxa de ferramentas do AiDrop!

MEME DA SEMANA

Já encontraram “oportunidades de mercado” para quem utilizar o ChatGPT Agent para fazer compras…

O que achou da edição de hoje?

Login or Subscribe to participate

DROPS

Elevando o QI da internet no Brasil, uma newsletter por vez. Nós filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudável, rápida e inteligente, diretamente no seu inbox. Dê tchau às assinaturas pagas, banners indesejados, pop-ups intrometidos. É free e forever will be.

0 comments

or to participate

Veja as edições anteriores

No posts found