Hey, Droppers!

Na coluna ‘Talvez Ferrou’ de hoje: no teste de “desalinhamento de comportamento” da Anthropic, Claude Sonnet e Opus 4 tiveram pontuações relativamente altas, mas o novo Claude Sonnet 4.5 marcou zero. Isso pode significar duas coisas: (1) o Sonnet 4.5 realmente deixou de apresentar comportamentos nocivos e inseguros; (2) ele aprendeu a contornar o teste e esconder esses comportamentos.

❝

No AiDrop de hoje, repetindo a palavra IA trocentas vezes:

• ChatGPT: um shopping center com IA
• Claude Sonnet 4.5: o novo melhor coder
• Work Slop: IA e (re)trabalho humano
• IA por aí: Microsoft, Qwen, OpenAI, xAI e mais…
• Me explique como se eu fosse uma criança: Misalignment Benchmark

Dropped by Felipe Nascente e Renan Hamann

CHATBOTS

ChatGPT: um shopping center com IA

O cheque da Nvidia para a OpenAI é gigantesco e se soma a outras captações bilionárias que a startup já conseguiu, mas em algum momento ela precisa mostrar retorno – não dá pra depender pra sempre dos ~~sugar daddies~~ investidores para pagar as contas, né!? A nova saída: levar um shopping center para o ChatGPT.

O recurso chega como Instant Checkout e permite que usuários façam compras diretamente no chatbot – logo após uma busca pelos “melhores tênis de corrida com frete grátis custando até R$ 500”. Essa é uma clara resposta à integração entre Perplexity e PayPal, que iniciou a tendência meses atrás.

Quem já embarcou com a OAI?

Plataformas: a Etsy já está conectada e a Shopify deve ser a próxima a ter as lojas nesse jogo. Há negociações com outros players em andamento.
Pagamentos: a primeira parceria anunciada no checkout fica com o Stripe.
Consumidores: por enquanto o recurso só foi liberado nos EUA – Free/Plus/Pro –, mas há planos de expandir o suporte para outros países.

Se o Google e todo o mercado de publishers estão torcendo o nariz para os chatbots roubando uma fatia do mercado de buscas, agora é o setor de marketing de afiliados – uma indústria que vale cerca de US$ 16 bilhões – que fica de olhos bem abertos.

❝

A expectativa é simples: plataformas e lojas que conseguirem bons contratos de parceria com o ChatGPT e outros chatbots devem se dar bem. Já quem tem menos poder de barganha e produtores de conteúdo independentes podem perder ainda mais espaço.

Outra novidade dessa semana é o ChatGPT Pulse, criado para entrar na rotina matinal das pessoas. Ele usa dados de emails, calendário e histórico para criar um briefing do dia de cada usuário – “hoje você tem consulta médica e jantar de aniversário da esposa”, por exemplo. Já está disponível no plano Pro para iOS e Android.

Com o Instant Checkout sendo o shopping center de bolso e com o Pulse se tornando um assistente mais proativo, a OpenAI vai aos poucos aumentando os domínios e seguindo na missão de criar um superapp e estar ainda mais integrada à rotina dos usuários.

Compartilhe no WhatsApp

IA POR AÍ

Lovable transformou recurso de backend através do Supabase em uma feature nativa da ferramenta, sem necessidade de conta externa.
Ant Ling lançou o primeiro modelo de linguagem open-source com 1 trilhão de parâmetros.
Qwen agora recebe mensagens de voz transcritas no chat através do Qwen3-TTS.
OpenAI liberou o controle parental após os anúncios recentes que relatavam a preocupação com os usuários mais jovens.
Tencent disponibilizou o HunyuanImage 3.0, a nova versão do seu modelo de geração de imagens, com 80B parâmetros.
xAI deu um upgrade no novo Grok 4 Fast e aumentou a janela de contexto para 2 milhões de tokens, um grande passo para trabalhar com muitos dados.

Satya Nadella inaugurou o Vibe Working:

Com todas as experiências que os LLMs vêm adquirindo utilizando planilhas, a Microsoft treinou o Copilot o suficiente para ter uma performance superior a todos os concorrentes dentro do Excel e lançou o Copilot Agent Mode.

Agora, o Copilot cria, edita, transforma e remexe suas planilhas com a capacidade próxima de um humano (57,2% para eles vs 71,3% para nós no benchmark) – melhor que muita gente que coloca “Excel avançado” no currículo.

CODING

Claude Sonnet 4.5: o novo melhor coder

Menos de 60 dias após o lançamento do Claude Opus 4.1, a Anthropic voltou empolgada com o Claude Sonnet 4.5, reivindicando o título de "melhor modelo do mundo para engenharia de software”. E os testes são promissores: primeiro lugar em múltiplas tarefas de coding e salto de 20% nas simulações de uso autônomo de um PC.

❝

Em teste de programação contínua, o Claude Sonnet 4.5 conseguiu gerar 11 mil linhas de código após 30 horas sem interrupções – parando apenas quando a aplicação solicitada foi concluída.

O recorde é muito superior ao anterior, do GPT-5-Codex, que conseguiu a marca de 7 horas sem pausas.

No pacote também vieram novas ferramentas:

Claude Code v2: agora com checkpoints para retomar sessões longas.
Memória e contexto via API: para agentes com históricos longos.
Novo Agent SDK: integrando as novas ferramentas da API, mas com foco em geração de código e dev tools.
Imagine with Claude: funciona como um quadro com post-its para desenvolver softwares a partir de um brainstorm visual – somente para usuários do plano Max.

Tudo isso surge junto com o foco empresarial e as iniciativas de expansão internacional da startup – que soma 300 mil clientes Enterprise e vê 80% da receita vindo de fora dos EUA.

❝

A Anthropic não é a única com novidades em coding: a DeepSeek lançou o DeepSeek V3.2 Exp, com nova arquitetura própria e cortando os preços em mais de 50% (de novo). Outra novidade é o GLM 4.6 da Zhipu AI, que ultrapassou o novo DeepSeek em benchmarks – e que pode ser integrado ao Claude Code.

O pulo do gato da Anthropic não é só a qualidade do modelo, mas o awareness e a distribuição: já virou vitrine no Lovable, Perplexity, Amazon Bedrock, Cursor e cia., além de finalmente chegar ao VS Code. Será que esse motor tem combustível pra liderar o mercado de coding com IA no longo prazo?

Compartilhe no WhatsApp

ME EXPLIQUE COMO SE EU FOSSE UMA CRIANÇA

Misalignment Benchmark

É um conjunto de testes que mede o quanto um modelo de IA tende a se comportar fora do que seus criadores desejam – como burlar regras, acatar pedidos perigosos ou adotar objetivos próprios.

Ele funciona submetendo o modelo a cenários adversos (jailbreaks, pedidos de uso indevido, simulações de agente) e registrando se ele obedece, responde de forma insegura ou tenta contornar a avaliação.

TRABALHO

Work Slop: IA e (re)trabalho humano

Boa parte da promessa da IA está em aumentar a produtividade, integrando ferramentas generativas para tirar o peso do trabalho repetitivo. O problema surge com o Work Slop – um material que parece trabalho, mas não tem substância e acaba só empurrando a bomba adiante.

❝

O efeito da falsa praticidade é instantâneo: quem recebe o resultado precisa decodificar o que faltou, corrigir ou refazer. No meio disso surge confusão, retrabalho e desgaste entre colegas.

Todo mundo sofre e todo mundo faz sofrer: o Work Slop não está aparecendo em níveis ou setores específicos, mas áreas de tecnologia e comunicação vêm sendo especialmente impactadas. Isso foi medido pelos novos relatórios do MIT Media Lab e BetterUp:

Percepção: 95% das empresas não estão conseguindo encontrar um ROI mensurável em IA.
Constância nos erros: 40% dos 1.150 trabalhadores pesquisados receberam Work Slop no último mês; em média, 15% do conteúdo recebido é classificado dessa forma.
Queda na reputação: ~54% passaram a ver o remetente como menos criativo; 37% como menos inteligente.
O custo: 1h56 de tempo perdido médio por ocorrência; custo estimado: US$ 186 por pessoa/mês.

O que era pra ser um ganho de tempo, se tornou uma perda de vários lados. A saída é menos ferramental e mais cultural: líderes precisam impor práticas de revisão, feedback e incentivar o uso com propósito. Assim, a IA vira parceira para acelerar os resultados, não uma fonte de retrabalho e desgaste.

Enquanto o Work Slop segue assombrando empresas, quem está ligado no mercado de IA com o AiDrop sabe que dá pra usar as ferramentas do jeito certo. Pega seu link de indicação aqui e manda pra todo mundo – até pra quem ainda te faz ter retrabalho.

Compartilhe no WhatsApp

CAIXA DE FERRAMENTAS

Hoje o AiDrop separou uma lista de alternativas de chatbots pra você testar e ver qual pode se adaptar mais:

Qwen3: todos os modelos da família Qwen disponíveis na plataforma.
GLM 4.6: teste o novo modelo e tire suas próprias conclusões.
GPT-oss: o LLM aberto da OAI está no DuckDuckGo, 100% privado.
Kimi K2: um ótimo LLM com habilidades agênticas, tal como o GPT Agent.

Confira todas as ferramentas que nós separamos na cAIxa de ferramentas do AiDrop!

MEME DA SEMANA

Já encontraram “oportunidades de mercado” para quem utilizar o ChatGPT Agent para fazer compras…

O que achou da edição de hoje?

DROPS

Inscreva-se | Indique a News | Anuncie

Elevando o QI da internet no Brasil, uma newsletter por vez. Nós filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudável, rápida e inteligente, diretamente no seu inbox. Dê tchau às assinaturas pagas, banners indesejados, pop-ups intrometidos. É free e forever will be.

🤖 Um shopping no ChatGPT

Hey, Droppers!

CHATBOTS

ChatGPT: um shopping center com IA

IA POR AÍ

CODING

Claude Sonnet 4.5: o novo melhor coder

ME EXPLIQUE COMO SE EU FOSSE UMA CRIANÇA

TRABALHO

Work Slop: IA e (re)trabalho humano

CAIXA DE FERRAMENTAS

MEME DA SEMANA

O que achou da edição de hoje?

DROPS

0 comments

Veja as edições anteriores

Junte-se a mais de 90 mil AiDroppers e não fique sem assunto no happy hour.