
Hey, Droppers!
Na coluna ‘Talvez Ferrou’ de hoje: no teste de “desalinhamento de comportamento” da Anthropic, Claude Sonnet e Opus 4 tiveram pontuações relativamente altas, mas o novo Claude Sonnet 4.5 marcou zero. Isso pode significar duas coisas: (1) o Sonnet 4.5 realmente deixou de apresentar comportamentos nocivos e inseguros; (2) ele aprendeu a contornar o teste e esconder esses comportamentos.
No AiDrop de hoje, repetindo a palavra IA trocentas vezes:
• ChatGPT: um shopping center com IA
• Claude Sonnet 4.5: o novo melhor coder
• Work Slop: IA e (re)trabalho humano
• IA por aí: Microsoft, Qwen, OpenAI, xAI e mais…
• Me explique como se eu fosse uma criança: Misalignment Benchmark

CHATBOTS
ChatGPT: um shopping center com IA

O cheque da Nvidia para a OpenAI é gigantesco e se soma a outras captações bilionárias que a startup já conseguiu, mas em algum momento ela precisa mostrar retorno – não dá pra depender pra sempre dos sugar daddies investidores para pagar as contas, né!? A nova saída: levar um shopping center para o ChatGPT.
O recurso chega como Instant Checkout e permite que usuários façam compras diretamente no chatbot – logo após uma busca pelos “melhores tênis de corrida com frete grátis custando até R$ 500”. Essa é uma clara resposta à integração entre Perplexity e PayPal, que iniciou a tendência meses atrás.
Quem já embarcou com a OAI?
Plataformas: a Etsy já está conectada e a Shopify deve ser a próxima a ter as lojas nesse jogo. Há negociações com outros players em andamento.
Pagamentos: a primeira parceria anunciada no checkout fica com o Stripe.
Consumidores: por enquanto o recurso só foi liberado nos EUA – Free/Plus/Pro –, mas há planos de expandir o suporte para outros países.
Se o Google e todo o mercado de publishers estão torcendo o nariz para os chatbots roubando uma fatia do mercado de buscas, agora é o setor de marketing de afiliados – uma indústria que vale cerca de US$ 16 bilhões – que fica de olhos bem abertos.
A expectativa é simples: plataformas e lojas que conseguirem bons contratos de parceria com o ChatGPT e outros chatbots devem se dar bem. Já quem tem menos poder de barganha e produtores de conteúdo independentes podem perder ainda mais espaço.
Outra novidade dessa semana é o ChatGPT Pulse, criado para entrar na rotina matinal das pessoas. Ele usa dados de emails, calendário e histórico para criar um briefing do dia de cada usuário – “hoje você tem consulta médica e jantar de aniversário da esposa”, por exemplo. Já está disponível no plano Pro para iOS e Android.
Com o Instant Checkout sendo o shopping center de bolso e com o Pulse se tornando um assistente mais proativo, a OpenAI vai aos poucos aumentando os domínios e seguindo na missão de criar um superapp e estar ainda mais integrada à rotina dos usuários.
IA POR AÍ
Lovable transformou recurso de backend através do Supabase em uma feature nativa da ferramenta, sem necessidade de conta externa.
Ant Ling lançou o primeiro modelo de linguagem open-source com 1 trilhão de parâmetros.
Qwen agora recebe mensagens de voz transcritas no chat através do Qwen3-TTS.
OpenAI liberou o controle parental após os anúncios recentes que relatavam a preocupação com os usuários mais jovens.
Tencent disponibilizou o HunyuanImage 3.0, a nova versão do seu modelo de geração de imagens, com 80B parâmetros.
xAI deu um upgrade no novo Grok 4 Fast e aumentou a janela de contexto para 2 milhões de tokens, um grande passo para trabalhar com muitos dados.

Satya Nadella inaugurou o Vibe Working:
Com todas as experiências que os LLMs vêm adquirindo utilizando planilhas, a Microsoft treinou o Copilot o suficiente para ter uma performance superior a todos os concorrentes dentro do Excel e lançou o Copilot Agent Mode.
Agora, o Copilot cria, edita, transforma e remexe suas planilhas com a capacidade próxima de um humano (57,2% para eles vs 71,3% para nós no benchmark) – melhor que muita gente que coloca “Excel avançado” no currículo.
CODING
Claude Sonnet 4.5: o novo melhor coder

Menos de 60 dias após o lançamento do Claude Opus 4.1, a Anthropic voltou empolgada com o Claude Sonnet 4.5, reivindicando o título de "melhor modelo do mundo para engenharia de software”. E os testes são promissores: primeiro lugar em múltiplas tarefas de coding e salto de 20% nas simulações de uso autônomo de um PC.
Em teste de programação contínua, o Claude Sonnet 4.5 conseguiu gerar 11 mil linhas de código após 30 horas sem interrupções – parando apenas quando a aplicação solicitada foi concluída.
O recorde é muito superior ao anterior, do GPT-5-Codex, que conseguiu a marca de 7 horas sem pausas.
No pacote também vieram novas ferramentas:
Claude Code v2: agora com checkpoints para retomar sessões longas.
Memória e contexto via API: para agentes com históricos longos.
Novo Agent SDK: integrando as novas ferramentas da API, mas com foco em geração de código e dev tools.
Imagine with Claude: funciona como um quadro com post-its para desenvolver softwares a partir de um brainstorm visual – somente para usuários do plano Max.
Tudo isso surge junto com o foco empresarial e as iniciativas de expansão internacional da startup – que soma 300 mil clientes Enterprise e vê 80% da receita vindo de fora dos EUA.
A Anthropic não é a única com novidades em coding: a DeepSeek lançou o DeepSeek V3.2 Exp, com nova arquitetura própria e cortando os preços em mais de 50% (de novo). Outra novidade é o GLM 4.6 da Zhipu AI, que ultrapassou o novo DeepSeek em benchmarks – e que pode ser integrado ao Claude Code.
O pulo do gato da Anthropic não é só a qualidade do modelo, mas o awareness e a distribuição: já virou vitrine no Lovable, Perplexity, Amazon Bedrock, Cursor e cia., além de finalmente chegar ao VS Code. Será que esse motor tem combustível pra liderar o mercado de coding com IA no longo prazo?
ME EXPLIQUE COMO SE EU FOSSE UMA CRIANÇA

Misalignment Benchmark
É um conjunto de testes que mede o quanto um modelo de IA tende a se comportar fora do que seus criadores desejam – como burlar regras, acatar pedidos perigosos ou adotar objetivos próprios.
Ele funciona submetendo o modelo a cenários adversos (jailbreaks, pedidos de uso indevido, simulações de agente) e registrando se ele obedece, responde de forma insegura ou tenta contornar a avaliação.
TRABALHO
Work Slop: IA e (re)trabalho humano

Boa parte da promessa da IA está em aumentar a produtividade, integrando ferramentas generativas para tirar o peso do trabalho repetitivo. O problema surge com o Work Slop – um material que parece trabalho, mas não tem substância e acaba só empurrando a bomba adiante.
O efeito da falsa praticidade é instantâneo: quem recebe o resultado precisa decodificar o que faltou, corrigir ou refazer. No meio disso surge confusão, retrabalho e desgaste entre colegas.
Todo mundo sofre e todo mundo faz sofrer: o Work Slop não está aparecendo em níveis ou setores específicos, mas áreas de tecnologia e comunicação vêm sendo especialmente impactadas. Isso foi medido pelos novos relatórios do MIT Media Lab e BetterUp:
Percepção: 95% das empresas não estão conseguindo encontrar um ROI mensurável em IA.
Constância nos erros: 40% dos 1.150 trabalhadores pesquisados receberam Work Slop no último mês; em média, 15% do conteúdo recebido é classificado dessa forma.
Queda na reputação: ~54% passaram a ver o remetente como menos criativo; 37% como menos inteligente.
O custo: 1h56 de tempo perdido médio por ocorrência; custo estimado: US$ 186 por pessoa/mês.
O que era pra ser um ganho de tempo, se tornou uma perda de vários lados. A saída é menos ferramental e mais cultural: líderes precisam impor práticas de revisão, feedback e incentivar o uso com propósito. Assim, a IA vira parceira para acelerar os resultados, não uma fonte de retrabalho e desgaste.
Enquanto o Work Slop segue assombrando empresas, quem está ligado no mercado de IA com o AiDrop sabe que dá pra usar as ferramentas do jeito certo. Pega seu link de indicação aqui e manda pra todo mundo – até pra quem ainda te faz ter retrabalho.
CAIXA DE FERRAMENTAS
Hoje o AiDrop separou uma lista de alternativas de chatbots pra você testar e ver qual pode se adaptar mais:
Confira todas as ferramentas que nós separamos na cAIxa de ferramentas do AiDrop!
MEME DA SEMANA

Já encontraram “oportunidades de mercado” para quem utilizar o ChatGPT Agent para fazer compras…

O que achou da edição de hoje?
DROPS
Elevando o QI da internet no Brasil, uma newsletter por vez. Nós filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudável, rápida e inteligente, diretamente no seu inbox. Dê tchau às assinaturas pagas, banners indesejados, pop-ups intrometidos. É free e forever will be.