Hey, Droppers!

Na coluna ‘Ferrou’ de hoje: A OpenAI é uma organização sem fins lucrativos, gastando bilhões para desenvolver uma IA e cobrar U$200/mês e de código-fechado. A DeepSeek é uma startup de um hedge fund, gastou poucos milhões para desenvolver uma IA open-source.

No drop de hoje, repetindo “open-source” trocentas vezes:

HLE: A última prova da humanidade
ChatGPT Operator: a IA trabalhando por você
Polícia: combatendo o crime usando IA
Os Casos de Uso: Angra, LinkedIn, Cacau Show, Quartz, TIM, Deezer
Me explique como se eu fosse uma criança: Benchmark

Seu trabalho não será substituído por uma Inteligência Artificial, mas por alguém utilizando Inteligência Artificial. Quer ficar por dentro da década de avanços que rolam no universo de IA todas as semanas? Assina o AiDrop e te contamos tudo, sem tecniquês, todas as quintas-feiras no seu inbox.

A última prova da humanidade

ai safety, scale ai, last exam, HLE, benchmark

As décadas de avanços no campo da inteligência artificial que acontecem todas as semanas são apenas um indício da velocidade que esta indústria evolui. E se para os meros mortais (que não assinam o AiDrop) já está difícil acompanhar tanta evolução, imagina para os testes e avaliações para determinar quais os melhores modelos. É por isso que o Center of AI Safety e a Scale AI criaram o Humanity’s Last Exam (HLE).

Já que os LLMs mais novos estão atingindo pontuações acima de 90% nos benchmarks mais populares (como o MMLU e MATH), a saída foi subir a barra com a criação d’A Última Prova da Humanidade, que visa estressar ao máximo o potencial destas IAs. O teste consiste em:

3.000 questões (80% respostas exatas, 20% múltipla escolha e 10% multimodais)
100 disciplinas (matemática, ciências, humanidades etc.)
1.000 especialistas de 500 instituições em 50 países para desenvolvimento do teste

Além das questões serem 100% originais (respostas não podem ser encontradas por buscas na internet) o nível de dificuldade parece ter aumentado e muito. Por exemplo, o modelo o1 da OpenAI que tinha tirado 92,3% no teste MMLU, atingiu apenas 9,1% no HLE.

Além da baixa taxa de acerto, os LLMs também apontaram “falhas de calibração” de até 90%, mostrando que a IA frequentemente dá resposta errada com alta confiança. O HLE chegou para mostrar quem é que manda e avaliar se os robôs realmente serão a última prova da humanidade, ~~antes de nos substituir por completo.~~

🤖 Casos de Uso

Angra 1 está utilizando IA para avaliar a vida útil de equipamentos estimando o histórico de temperatura.
LinkedIn desenvolveu uma ferramenta chamada Jobs Match, que avalia aplicações, junto de um agente ajuda a gerenciar processos de seleção.
Cacau Show criou um assistente virtual chamado ChefAI para ajudar os usuários a criarem pratos com ingredientes que já tenham em casa.
Quartz secretamente tem publicado pequenas notícias geradas por IA dentro da sua plataforma.
Tim está usando IA para prever manutenções de rede, com mais de 85% de assertividade, o modelo reduz custos e evita falhas operacionais.
Deezer criou uma ferramenta para detectar músicas criadas por inteligência artificial.

Trending: Depois do DeepSeek R1, outra startup chinesa revelou um novo modelo que supera o desempenho de Claude Sonnet 3.5 e GPT-4o.

Conheça o Kimi 1.5: um modelo multimodal com raciocínio avançado em cadeia de pensamentos e pesquisa na web em tempo real.

100% GRATUITO com chats ilimitados.

Para testar basta criar uma conta →

ChatGPT Operator: a IA trabalhando por você

chatgpt, operator, agente, navegador

Apesar de todos os holofotes estarem voltados para a DeepSeek, a OpenAI continuou ~~a gastar bilhões~~ com seus lançamentos. A bola da vez foi o ChatGPT Operator: um agente que executa ações dentro do navegador enquanto você conversa com ele.

Usando o seu próprio navegador, o Operator pode acessar a web como um ser humano faria, buscar na internet, visitar sites, navegar por páginas, clicar, digitar, comprar etc… Alguns exemplos do que a galera já aprontou:

Comprar ingredientes a partir de uma foto da receita →
Planejar uma viagem de fim de semana a partir de dicas do Reddit →
Fazer buscas para investimento em cripto →
Agendar uma viagem completa →
Marcar horário no barbeiro a partir da sua agenda →
Realizar pagamentos em todas essas tarefas, após você confirmar

Apesar do breakthrough, a OpenAI não é a primeira. O universo ~~substitutos dos humanos~~ de agentes de IA é vasto e dividido em 2 principais categorias:

Os que agentes de IA que literalmente usam o PC como um humano:

→ Computer Use da Anthropic → permitindo que a IA execute tarefas complexas em um computador de forma autônoma.
→ Browser Use → uma biblioteca open-source que permite você usar diversos LLMs usarem um navegador e executarem tarefas.
→ Runner H → ainda em beta fechado, o H será ainda mais competitivo ao Computer Use, sendo um agente que executa tarefas no seu computador inteiro.

Os agentes de IA que acessam programas via API e sistemas de código:

→ AutoGen da Microsoft que permite a criação de sistemas multiagentes onde os agentes podem se comunicar e colaborar para resolver tarefas.
→ CrewAI que com uma estrutura projetada para engenheiros, simplifica o processo de construção de agentes e automações de IA.
→ OpenAgents uma plataforma aberta que facilita o uso e hospedagem de agentes de linguagem.
→ AgentVerse plataforma projetada para permitir a implantação de vários agentes baseados em LLM em diferentes aplicações

Por enquanto, o Operator está disponível somente para os usuários do ChatGPT Pro nos EUA, para testar em um grupo fechado e melhorar a partir de feedbacks, mas, em breve, será disponibilizado para os usuários Plus e também com o o3-mini.

P.S: Enquanto isso, o Alibaba lançou o Qwen2.5-VL, também capaz de controlar o seu computador, nos modelos 3B, 7B e 72B.

Me explique como se eu fosse uma criança: Benchmark

Benchmark ou Avaliação comparativa

Um benchmark de IA é como um "teste padrão" usado para avaliar se um modelo de inteligência artificial é bom em uma tarefa específica.

Esses testes incluem desafios como responder perguntas, resolver problemas matemáticos ou entender texto, comparando o desempenho do modelo com resultados esperados ou com outros modelos para ver quem se sai melhor. Por exemplo:

MMLU (Massive Multitask Language Understanding): Testa se o modelo sabe responder perguntas de várias áreas (ciência, história, matemática).
MATH (Mathematics Dataset): Mede a habilidade de resolver problemas matemáticos avançados, como cálculos e equações.

🤖 Novidades em IA

DeepSeek R1 superou o o1 no WebDev Arena, uma tabela que elenca a performance em tarefas reais, perdendo somente para o Claude 3.5 Sonnet.
OpenAI atualizou o ChatGPT Canvas e agora pode ser usado através do modelo o1, podendo renderizar HTML e React.
YuE, está lançado o novo modelo de criação de músicas similar ao Suno mas completamente open-source.
xAI reportou estar desenvolvendo um suporte a modelos de voz no app do Grok para iOS, com suporte a vozes do ElevenLabs.
Perplexity lançou o seu assistente pessoal para celulares Android, substituindo e melhorando a experiência do Google Assistant.
DeepSeek, no meio do alvoroço econômico americano, lançou o Janus-Pro-7B, mais um modelo com geração de imagens.

Combatendo o crime com IA

palantir, aws, crime, polícia, reino unido

A polícia britânica está mudando a maneira de caçar criminosos com a implementação da IA da Palantir. A tecnologia já reduziu o tempo de resposta em casos de proteção infantil em incríveis 67%, e identificou 123 crianças em risco de abuso/exploração nos primeiros 8 dias de uso - algo inimaginável para um trabalho humano.

O segredo está na sua capacidade em processar dados, resolvendo tarefas que duravam dias em horas:

Substitui a análise manual de mais de 80 bancos de dados por um sistema integrado;
Combina mensagens de WhatsApp, chamadas de emergência e registros de localização em um painel central;
Gera gráficos de associações criminosas e perfis de suspeitos em segundos, oferecendo uma visão completa aos investigadores;

Os resultados falam por si só:

→ Tempo para execução de tarefas: reduzido de 2 dias para 3 horas.
→ Tempo para criar perfis de suspeitos: redução de 80%
→ Montagem de conexões criminais: 75% mais eficiente.

Para a segurança dos dados do sistema, ele está armazenado no GovCloud da AWS e o chefe de polícia de Belfordshire já prevê: “Se essa tecnologia for implementada em todo o país, o impacto no combate ao crime será transformador”.

cAIxa da Semana

OneOver, um agregador de chatbots de IA para você
Extruct AI, raspe as informações de empresas/sites via API
Voilà, tenha um assistente IA em todas as páginas do navegador
Cora Intelligence, aprimore seu enriquecimento de dados
Younet, diversos agentes de IA na palma da sua mão

^{*todas as ferramentas possuem trial}

MEME

O que achou da edição de hoje?

Antes de ir…

Sabe aquele amigo que só usa o ChatGPT para pedir receitas? Ou o primo que acha que IA é “igual Alexa”?

Tá na hora de indicar o AiDrop. A newsletter que entrega o que importa em IA – pra salvar o trampo, ganhar debates e nunca mais ficar por fora das principais inovações do mercado.

Termos e Condições

Nesse momento, você tem {{ rp_num_referrals }} indicações.

Você precisa de mais {{ rp_num_referrals_until_next_milestone }} para ganhar {{ rp_next_milestone_name }}.

Indique o AiDrop

DROPS

Elevando o QI da internet no Brasil, uma newsletter por vez. Nós filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudável, rápida e inteligente, diretamente no seu inbox. Dê tchau as assinaturas pagas, banners indesejados, pop-ups intrometidos. É free e forever will be.

Antes de ir embora… arraste este e-mail para sua lista prioritária, assim você não perde nenhum drop e nós não travamos na ~~alfândega da web~~ caixa de spam. Ah, pode nos responder também, lemos tudinho.

TechDrop | AiDrop | MoneyDrop

🤖 ChatGPT Operator: a IA trabalhando por você