• AiDrop
  • Posts
  • đŸ€– ChatGPT Operator: a IA trabalhando por você

đŸ€– ChatGPT Operator: a IA trabalhando por você

+ Casos de Uso: Angra, TIM, Cacau Show e mais...

Hey, Droppers!

Na coluna ‘Ferrou’ de hoje: A OpenAI Ă© uma organização sem fins lucrativos, gastando bilhĂ”es para desenvolver uma IA e cobrar U$200/mĂȘs e de cĂłdigo-fechado. A DeepSeek Ă© uma startup de um hedge fund, gastou poucos milhĂ”es para desenvolver uma IA open-source.

No drop de hoje, repetindo “open-source” trocentas vezes:

  • HLE: A Ășltima prova da humanidade

  • ChatGPT Operator: a IA trabalhando por vocĂȘ

  • PolĂ­cia: combatendo o crime usando IA

  • Os Casos de Uso: Angra, LinkedIn, Cacau Show, Quartz, TIM, Deezer

  • Me explique como se eu fosse uma criança: Benchmark

Seu trabalho nĂŁo serĂĄ substituĂ­do por uma InteligĂȘncia Artificial, mas por alguĂ©m utilizando InteligĂȘncia Artificial. Quer ficar por dentro da dĂ©cada de avanços que rolam no universo de IA todas as semanas? Assina o AiDrop e te contamos tudo, sem tecniquĂȘs, todas as quintas-feiras no seu inbox.

A Ășltima prova da humanidade

ai safety, scale ai, last exam, HLE, benchmark

As dĂ©cadas de avanços no campo da inteligĂȘncia artificial que acontecem todas as semanas sĂŁo apenas um indĂ­cio da velocidade que esta indĂșstria evolui. E se para os meros mortais (que nĂŁo assinam o AiDrop) jĂĄ estĂĄ difĂ­cil acompanhar tanta evolução, imagina para os testes e avaliaçÔes para determinar quais os melhores modelos. É por isso que o Center of AI Safety e a Scale AI criaram o Humanity’s Last Exam (HLE).

JĂĄ que os LLMs mais novos estĂŁo atingindo pontuaçÔes acima de 90% nos benchmarks mais populares (como o MMLU e MATH), a saĂ­da foi subir a barra com a criação d’A Última Prova da Humanidade, que visa estressar ao mĂĄximo o potencial destas IAs. O teste consiste em:

  • 3.000 questĂ”es (80% respostas exatas, 20% mĂșltipla escolha e 10% multimodais)

  • 100 disciplinas (matemĂĄtica, ciĂȘncias, humanidades etc.)

  • 1.000 especialistas de 500 instituiçÔes em 50 paĂ­ses para desenvolvimento do teste

Além das questÔes serem 100% originais (respostas não podem ser encontradas por buscas na internet) o nível de dificuldade parece ter aumentado e muito. Por exemplo, o modelo o1 da OpenAI que tinha tirado 92,3% no teste MMLU, atingiu apenas 9,1% no HLE.

AlĂ©m da baixa taxa de acerto, os LLMs tambĂ©m apontaram “falhas de calibração” de atĂ© 90%, mostrando que a IA frequentemente dĂĄ resposta errada com alta confiança. O HLE chegou para mostrar quem Ă© que manda e avaliar se os robĂŽs realmente serĂŁo a Ășltima prova da humanidade, antes de nos substituir por completo.

đŸ€– Casos de Uso

  • Angra 1 estĂĄ utilizando IA para avaliar a vida Ăștil de equipamentos estimando o histĂłrico de temperatura.

  • LinkedIn desenvolveu uma ferramenta chamada Jobs Match, que avalia aplicaçÔes, junto de um agente ajuda a gerenciar processos de seleção.

  • Cacau Show criou um assistente virtual chamado ChefAI para ajudar os usuĂĄrios a criarem pratos com ingredientes que jĂĄ tenham em casa.

  • Quartz secretamente tem publicado pequenas notĂ­cias geradas por IA dentro da sua plataforma.

  • Tim estĂĄ usando IA para prever manutençÔes de rede, com mais de 85% de assertividade, o modelo reduz custos e evita falhas operacionais.

  • Deezer criou uma ferramenta para detectar mĂșsicas criadas por inteligĂȘncia artificial.

Trending: Depois do DeepSeek R1, outra startup chinesa revelou um novo modelo que supera o desempenho de Claude Sonnet 3.5 e GPT-4o.

Conheça o Kimi 1.5: um modelo multimodal com raciocínio avançado em cadeia de pensamentos e pesquisa na web em tempo real.

100% GRATUITO com chats ilimitados.

ChatGPT Operator: a IA trabalhando por vocĂȘ

chatgpt, operator, agente, navegador

Apesar de todos os holofotes estarem voltados para a DeepSeek, a OpenAI continuou a gastar bilhĂ”es com seus lançamentos. A bola da vez foi o ChatGPT Operator: um agente que executa açÔes dentro do navegador enquanto vocĂȘ conversa com ele.

Usando o seu próprio navegador, o Operator pode acessar a web como um ser humano faria, buscar na internet, visitar sites, navegar por páginas, clicar, digitar, comprar etc
 Alguns exemplos do que a galera já aprontou:

Apesar do breakthrough, a OpenAI nĂŁo Ă© a primeira. O universo substitutos dos humanos de agentes de IA Ă© vasto e dividido em 2 principais categorias:

Os que agentes de IA que literalmente usam o PC como um humano:

→ Computer Use da Anthropic → permitindo que a IA execute tarefas complexas em um computador de forma autînoma.
→ Browser Use → uma biblioteca open-source que permite vocĂȘ usar diversos LLMs usarem um navegador e executarem tarefas.
→ Runner H → ainda em beta fechado, o H será ainda mais competitivo ao Computer Use, sendo um agente que executa tarefas no seu computador inteiro.

Os agentes de IA que acessam programas via API e sistemas de cĂłdigo:

→ AutoGen da Microsoft que permite a criação de sistemas multiagentes onde os agentes podem se comunicar e colaborar para resolver tarefas.
→ CrewAI que com uma estrutura projetada para engenheiros, simplifica o processo de construção de agentes e automaçÔes de IA.
→ OpenAgents uma plataforma aberta que facilita o uso e hospedagem de agentes de linguagem.
→ AgentVerse plataforma projetada para permitir a implantação de vĂĄrios agentes baseados em LLM em diferentes aplicaçÔes

Por enquanto, o Operator estå disponível somente para os usuårios do ChatGPT Pro nos EUA, para testar em um grupo fechado e melhorar a partir de feedbacks, mas, em breve, serå disponibilizado para os usuårios Plus e também com o o3-mini.

P.S: Enquanto isso, o Alibaba lançou o Qwen2.5-VL, tambĂ©m capaz de controlar o seu computador, nos modelos 3B, 7B e 72B.

Me explique como se eu fosse uma criança: Benchmark

Benchmark ou Avaliação comparativa

Um benchmark de IA Ă© como um "teste padrĂŁo" usado para avaliar se um modelo de inteligĂȘncia artificial Ă© bom em uma tarefa especĂ­fica.

Esses testes incluem desafios como responder perguntas, resolver problemas matemĂĄticos ou entender texto, comparando o desempenho do modelo com resultados esperados ou com outros modelos para ver quem se sai melhor. Por exemplo:

  • MMLU (Massive Multitask Language Understanding): Testa se o modelo sabe responder perguntas de vĂĄrias ĂĄreas (ciĂȘncia, histĂłria, matemĂĄtica).

  • MATH (Mathematics Dataset): Mede a habilidade de resolver problemas matemĂĄticos avançados, como cĂĄlculos e equaçÔes.

đŸ€– Novidades em IA

  • DeepSeek R1 superou o o1 no WebDev Arena, uma tabela que elenca a performance em tarefas reais, perdendo somente para o Claude 3.5 Sonnet.

  • OpenAI atualizou o ChatGPT Canvas e agora pode ser usado atravĂ©s do modelo o1, podendo renderizar HTML e React.

  • YuE, estĂĄ lançado o novo modelo de criação de mĂșsicas similar ao Suno mas completamente open-source.

  • xAI reportou estar desenvolvendo um suporte a modelos de voz no app do Grok para iOS, com suporte a vozes do ElevenLabs.

  • Perplexity lançou o seu assistente pessoal para celulares Android, substituindo e melhorando a experiĂȘncia do Google Assistant.

  • DeepSeek, no meio do alvoroço econĂŽmico americano, lançou o Janus-Pro-7B, mais um modelo com geração de imagens.

Combatendo o crime com IA

palantir, aws, crime, polĂ­cia, reino unido

A polícia britùnica estå mudando a maneira de caçar criminosos com a implementação da IA da Palantir. A tecnologia jå reduziu o tempo de resposta em casos de proteção infantil em incríveis 67%, e identificou 123 crianças em risco de abuso/exploração nos primeiros 8 dias de uso - algo inimaginåvel para um trabalho humano.

O segredo estĂĄ na sua capacidade em processar dados, resolvendo tarefas que duravam dias em horas:

  • Substitui a anĂĄlise manual de mais de 80 bancos de dados por um sistema integrado;

  • Combina mensagens de WhatsApp, chamadas de emergĂȘncia e registros de localização em um painel central;

  • Gera grĂĄficos de associaçÔes criminosas e perfis de suspeitos em segundos, oferecendo uma visĂŁo completa aos investigadores;

Os resultados falam por si sĂł:

→ Tempo para execução de tarefas: reduzido de 2 dias para 3 horas.
→ Tempo para criar perfis de suspeitos: redução de 80%
→ Montagem de conexĂ”es criminais: 75% mais eficiente.

Para a segurança dos dados do sistema, ele estĂĄ armazenado no GovCloud da AWS e o chefe de polĂ­cia de Belfordshire jĂĄ prevĂȘ: “Se essa tecnologia for implementada em todo o paĂ­s, o impacto no combate ao crime serĂĄ transformador”.

cAIxa da Semana

  • OneOver, um agregador de chatbots de IA para vocĂȘ

  • Extruct AI, raspe as informaçÔes de empresas/sites via API

  • VoilĂ , tenha um assistente IA em todas as pĂĄginas do navegador

  • Cora Intelligence, aprimore seu enriquecimento de dados

  • Younet, diversos agentes de IA na palma da sua mĂŁo

*todas as ferramentas possuem trial

MEME

O que achou da edição de hoje?

Faça Login ou Inscrever-se para participar de pesquisas.

Antes de ir


Sabe aquele amigo que sĂł usa o ChatGPT para pedir receitas? Ou o primo que acha que IA Ă© “igual Alexa”?

TĂĄ na hora de indicar o AiDrop. A newsletter que entrega o que importa em IA – pra salvar o trampo, ganhar debates e nunca mais ficar por fora das principais inovaçÔes do mercado.

Nesse momento, vocĂȘ tem 0 indicaçÔes.

VocĂȘ precisa de mais 3 para ganhar cAIxa de ferramentas.

DROPS

Elevando o QI da internet no Brasil, uma newsletter por vez. NĂłs filtramos tudo de mais importante e relevante que aconteceu no mercado para te entregar uma dieta de informação saudĂĄvel, rĂĄpida e inteligente, diretamente no seu inbox. DĂȘ tchau as assinaturas pagas, banners indesejados, pop-ups intrometidos. É free e forever will be.

Antes de ir embora
 arraste este e-mail para sua lista prioritĂĄria, assim vocĂȘ nĂŁo perde nenhum drop e nĂłs nĂŁo travamos na alfĂąndega da web caixa de spam. Ah, pode nos responder tambĂ©m, lemos tudinho.

Reply

or to participate.