- AiDrop
- Posts
- đ€ ChatGPT Operator: a IA trabalhando por voceÌ
đ€ ChatGPT Operator: a IA trabalhando por voceÌ
+ Casos de Uso: Angra, TIM, Cacau Show e mais...
Hey, Droppers!
Na coluna âFerrouâ de hoje: A OpenAI Ă© uma organização sem fins lucrativos, gastando bilhĂ”es para desenvolver uma IA e cobrar U$200/mĂȘs e de cĂłdigo-fechado. A DeepSeek Ă© uma startup de um hedge fund, gastou poucos milhĂ”es para desenvolver uma IA open-source.
No drop de hoje, repetindo âopen-sourceâ trocentas vezes:
HLE: A Ășltima prova da humanidade
ChatGPT Operator: a IA trabalhando por vocĂȘ
PolĂcia: combatendo o crime usando IA
Os Casos de Uso: Angra, LinkedIn, Cacau Show, Quartz, TIM, Deezer
Me explique como se eu fosse uma criança: Benchmark
Seu trabalho nĂŁo serĂĄ substituĂdo por uma InteligĂȘncia Artificial, mas por alguĂ©m utilizando InteligĂȘncia Artificial. Quer ficar por dentro da dĂ©cada de avanços que rolam no universo de IA todas as semanas? Assina o AiDrop e te contamos tudo, sem tecniquĂȘs, todas as quintas-feiras no seu inbox.

A Ășltima prova da humanidade
ai safety, scale ai, last exam, HLE, benchmark

As dĂ©cadas de avanços no campo da inteligĂȘncia artificial que acontecem todas as semanas sĂŁo apenas um indĂcio da velocidade que esta indĂșstria evolui. E se para os meros mortais (que nĂŁo assinam o AiDrop) jĂĄ estĂĄ difĂcil acompanhar tanta evolução, imagina para os testes e avaliaçÔes para determinar quais os melhores modelos. Ă por isso que o Center of AI Safety e a Scale AI criaram o Humanityâs Last Exam (HLE).
JĂĄ que os LLMs mais novos estĂŁo atingindo pontuaçÔes acima de 90% nos benchmarks mais populares (como o MMLU e MATH), a saĂda foi subir a barra com a criação dâA Ăltima Prova da Humanidade, que visa estressar ao mĂĄximo o potencial destas IAs. O teste consiste em:
3.000 questĂ”es (80% respostas exatas, 20% mĂșltipla escolha e 10% multimodais)
100 disciplinas (matemĂĄtica, ciĂȘncias, humanidades etc.)
1.000 especialistas de 500 instituiçÔes em 50 paĂses para desenvolvimento do teste
AlĂ©m das questĂ”es serem 100% originais (respostas nĂŁo podem ser encontradas por buscas na internet) o nĂvel de dificuldade parece ter aumentado e muito. Por exemplo, o modelo o1 da OpenAI que tinha tirado 92,3% no teste MMLU, atingiu apenas 9,1% no HLE.
AlĂ©m da baixa taxa de acerto, os LLMs tambĂ©m apontaram âfalhas de calibraçãoâ de atĂ© 90%, mostrando que a IA frequentemente dĂĄ resposta errada com alta confiança. O HLE chegou para mostrar quem Ă© que manda e avaliar se os robĂŽs realmente serĂŁo a Ășltima prova da humanidade, antes de nos substituir por completo.
đ€ Casos de Uso
Angra 1 estĂĄ utilizando IA para avaliar a vida Ăștil de equipamentos estimando o histĂłrico de temperatura.
LinkedIn desenvolveu uma ferramenta chamada Jobs Match, que avalia aplicaçÔes, junto de um agente ajuda a gerenciar processos de seleção.
Cacau Show criou um assistente virtual chamado ChefAI para ajudar os usuĂĄrios a criarem pratos com ingredientes que jĂĄ tenham em casa.
Quartz secretamente tem publicado pequenas notĂcias geradas por IA dentro da sua plataforma.
Tim estå usando IA para prever manutençÔes de rede, com mais de 85% de assertividade, o modelo reduz custos e evita falhas operacionais.
Deezer criou uma ferramenta para detectar mĂșsicas criadas por inteligĂȘncia artificial.
![]() | Trending: Depois do DeepSeek R1, outra startup chinesa revelou um novo modelo que supera o desempenho de Claude Sonnet 3.5 e GPT-4o. Conheça o Kimi 1.5: um modelo multimodal com raciocĂnio avançado em cadeia de pensamentos e pesquisa na web em tempo real. 100% GRATUITO com chats ilimitados. |
ChatGPT Operator: a IA trabalhando por vocĂȘ
chatgpt, operator, agente, navegador

Apesar de todos os holofotes estarem voltados para a DeepSeek, a OpenAI continuou a gastar bilhĂ”es com seus lançamentos. A bola da vez foi o ChatGPT Operator: um agente que executa açÔes dentro do navegador enquanto vocĂȘ conversa com ele.
Usando o seu próprio navegador, o Operator pode acessar a web como um ser humano faria, buscar na internet, visitar sites, navegar por påginas, clicar, digitar, comprar etc⊠Alguns exemplos do que a galera jå aprontou:
Planejar uma viagem de fim de semana a partir de dicas do Reddit â
Realizar pagamentos em todas essas tarefas, apĂłs vocĂȘ confirmar
Apesar do breakthrough, a OpenAI nĂŁo Ă© a primeira. O universo substitutos dos humanos de agentes de IA Ă© vasto e dividido em 2 principais categorias:
Os que agentes de IA que literalmente usam o PC como um humano:
â Computer Use da Anthropic â permitindo que a IA execute tarefas complexas em um computador de forma autĂŽnoma.
â Browser Use â uma biblioteca open-source que permite vocĂȘ usar diversos LLMs usarem um navegador e executarem tarefas.
â Runner H â ainda em beta fechado, o H serĂĄ ainda mais competitivo ao Computer Use, sendo um agente que executa tarefas no seu computador inteiro.
Os agentes de IA que acessam programas via API e sistemas de cĂłdigo:
â AutoGen da Microsoft que permite a criação de sistemas multiagentes onde os agentes podem se comunicar e colaborar para resolver tarefas.
â CrewAI que com uma estrutura projetada para engenheiros, simplifica o processo de construção de agentes e automaçÔes de IA.
â OpenAgents uma plataforma aberta que facilita o uso e hospedagem de agentes de linguagem.
â AgentVerse plataforma projetada para permitir a implantação de vĂĄrios agentes baseados em LLM em diferentes aplicaçÔes
Por enquanto, o Operator estĂĄ disponĂvel somente para os usuĂĄrios do ChatGPT Pro nos EUA, para testar em um grupo fechado e melhorar a partir de feedbacks, mas, em breve, serĂĄ disponibilizado para os usuĂĄrios Plus e tambĂ©m com o o3-mini.
P.S: Enquanto isso, o Alibaba lançou o Qwen2.5-VL, também capaz de controlar o seu computador, nos modelos 3B, 7B e 72B.
Me explique como se eu fosse uma criança: Benchmark
![]() | Benchmark ou Avaliação comparativa Um benchmark de IA Ă© como um "teste padrĂŁo" usado para avaliar se um modelo de inteligĂȘncia artificial Ă© bom em uma tarefa especĂfica. Esses testes incluem desafios como responder perguntas, resolver problemas matemĂĄticos ou entender texto, comparando o desempenho do modelo com resultados esperados ou com outros modelos para ver quem se sai melhor. Por exemplo:
|
đ€ Novidades em IA
DeepSeek R1 superou o o1 no WebDev Arena, uma tabela que elenca a performance em tarefas reais, perdendo somente para o Claude 3.5 Sonnet.
OpenAI atualizou o ChatGPT Canvas e agora pode ser usado através do modelo o1, podendo renderizar HTML e React.
YuE, estĂĄ lançado o novo modelo de criação de mĂșsicas similar ao Suno mas completamente open-source.
xAI reportou estar desenvolvendo um suporte a modelos de voz no app do Grok para iOS, com suporte a vozes do ElevenLabs.
Perplexity lançou o seu assistente pessoal para celulares Android, substituindo e melhorando a experiĂȘncia do Google Assistant.
DeepSeek, no meio do alvoroço econÎmico americano, lançou o Janus-Pro-7B, mais um modelo com geração de imagens.
Combatendo o crime com IA
palantir, aws, crime, polĂcia, reino unido

A polĂcia britĂąnica estĂĄ mudando a maneira de caçar criminosos com a implementação da IA da Palantir. A tecnologia jĂĄ reduziu o tempo de resposta em casos de proteção infantil em incrĂveis 67%, e identificou 123 crianças em risco de abuso/exploração nos primeiros 8 dias de uso - algo inimaginĂĄvel para um trabalho humano.
O segredo estĂĄ na sua capacidade em processar dados, resolvendo tarefas que duravam dias em horas:
Substitui a anĂĄlise manual de mais de 80 bancos de dados por um sistema integrado;
Combina mensagens de WhatsApp, chamadas de emergĂȘncia e registros de localização em um painel central;
Gera gråficos de associaçÔes criminosas e perfis de suspeitos em segundos, oferecendo uma visão completa aos investigadores;
Os resultados falam por si sĂł:
â Tempo para execução de tarefas: reduzido de 2 dias para 3 horas.
â Tempo para criar perfis de suspeitos: redução de 80%
â Montagem de conexĂ”es criminais: 75% mais eficiente.
Para a segurança dos dados do sistema, ele estĂĄ armazenado no GovCloud da AWS e o chefe de polĂcia de Belfordshire jĂĄ prevĂȘ: âSe essa tecnologia for implementada em todo o paĂs, o impacto no combate ao crime serĂĄ transformadorâ.
cAIxa da Semana

OneOver, um agregador de chatbots de IA para vocĂȘ
Extruct AI, raspe as informaçÔes de empresas/sites via API
VoilĂ , tenha um assistente IA em todas as pĂĄginas do navegador
Cora Intelligence, aprimore seu enriquecimento de dados
Younet, diversos agentes de IA na palma da sua mĂŁo
*todas as ferramentas possuem trial
MEME

O que achou da edição de hoje? |
Faça Login ou Inscrever-se para participar de pesquisas. |
Antes de irâŠ
Sabe aquele amigo que sĂł usa o ChatGPT para pedir receitas? Ou o primo que acha que IA Ă© âigual Alexaâ?
TĂĄ na hora de indicar o AiDrop. A newsletter que entrega o que importa em IA â pra salvar o trampo, ganhar debates e nunca mais ficar por fora das principais inovaçÔes do mercado.
Nesse momento, vocĂȘ tem 0 indicaçÔes. VocĂȘ precisa de mais 3 para ganhar cAIxa de ferramentas. |
DROPS
Elevando o QI da internet no Brasil, uma newsletter por vez. NĂłs filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudĂĄvel, rĂĄpida e inteligente, diretamente no seu inbox. DĂȘ tchau as assinaturas pagas, banners indesejados, pop-ups intrometidos. Ă free e forever will be.
Antes de ir embora⊠arraste este e-mail para sua lista prioritĂĄria, assim vocĂȘ nĂŁo perde nenhum drop e nĂłs nĂŁo travamos na alfĂąndega da web caixa de spam. Ah, pode nos responder tambĂ©m, lemos tudinho.
Reply