Apresentando o YouAgent com execução de código

A You.com apresenta o YouAgent, um agente de IA com acesso a um ambiente de computação, permitindo que ele execute códigos para responder às suas perguntas sobre STEM de forma mais confiável.

Neste exemplo, o YouAgent calcula uma hipoteca mensal escrevendo e executando código.
Neste exemplo, o YouAgent calcula uma hipoteca mensal escrevendo e executando código.

Isenção de responsabilidade: a funcionalidade do YouAgent agora pode ser acessada por meio do Genius Mode. Saiba mais sobre o Modo Genius e outros modos de IA.

Esta postagem do blog foi publicada antes dos últimos avanços em IA da You.com e pode não refletir nossos recursos atuais. Com uma base em pesquisa e a experiência em IA da equipe, a You.com estava perfeitamente posicionada para aprimorar os LLMs com acesso ao vivo à Internet para tratar de questões relacionadas a alucinações e transparência. Dessa forma, a You.com é capaz de realizar tarefas que vão desde a pesquisa on-line até a redação de uma redação, depuração de código, criação de arte digital, solução de problemas complexos e muito mais. Saiba mais sobre como tirar o máximo proveito do You.com.

A You.com também oferece sua tecnologia principal por meio de um conjunto de APIs de autoatendimento. Obtenha detalhes completos sobre a API YOU.

Histórico

Os LLMs possibilitaram novas formas de aprendizado e criação na Internet. Eles fornecem respostas longas, úteis e coloquiais para muitos tipos diferentes de perguntas. No entanto, eles apresentam várias deficiências graves:

  1. Eles não podem ser treinados com frequência suficiente para se manterem atualizados, o que é necessário para fornecer as referências e citações mais precisas.

  2. Eles alucinam - muitas vezes fornecendo respostas incorretas com confiança - sobre preços de ações, notícias recentes, pessoas e outras questões importantes.

  3. Eles não conseguem raciocinar de forma confiável sobre matemática, ciências e lógica.

Em 2022, a You.com foi a primeira a lançar um produto de consumo com um LLM que podia acessar e consultar a Internet para fornecer respostas atualizadas e incluir citações [1].

Na primavera de 2023, a You.com foi a primeira a introduzir saídas de bate-papo multimodais para os consumidores, fornecendo com precisão gráficos e aplicativos interativos para oferecer uma alternativa confiável ao texto que pode conter alucinações para tópicos em tempo real (por exemplo, preços de ações, clima etc.) [2].

Apresentando o YouAgent

Hoje, a You.com apresenta o YouAgent. O termo "agente de IA" vem do termo da comunidade de aprendizado de máquina para uma IA que não apenas observa seu ambiente, mas também toma medidas dentro desse ambiente. Desde a sua fundação, a You.com tem como objetivo ser uma Do-Engine que pode ajudar as pessoas a realmente fazer as coisas, e o YouAgent é o próximo grande marco no caminho para essa visão.

O primeiro conjunto de ações do YouAgent é ativado pelo uso de um ambiente de computação que executa código Python. O LLM pode escrever código, executá-lo nesse ambiente e, em seguida, tomar outras medidas com base no resultado da execução do código. Essa ferramenta de interpretação de código, juntamente com o processo de raciocínio em várias etapas do YouAgent, permite que ele responda a perguntas STEM complexas com muito mais precisão do que outros LLMs puros.

Como usar o YouAgent

Você pode usar o YouAgent iniciando sua consulta com "@agent" ou "/agent" em nossa interface de bate-papo com IA. Essas palavras de gatilho informarão à You.com que você deseja que ela aja, o que hoje significa executar código Python em um ambiente de computação. Observe que os recursos de ação serão expandidos no futuro.

Atualmente, qualquer usuário conectado ao You.com pode fazer até cinco consultas ao YouAgent por dia. Os assinantes do YouPro podem fazer até 100 consultas ao YouAgent por dia. Saiba mais sobre o YouPro.

Para ver como o YouAgent gera uma resposta no You.com, veja este exemplo.

Colocando o YouAgent à prova

Pedir a um LLM para multiplicar números grandes ou resolver problemas complexos de matemática e física é semelhante a perguntar a uma pessoa normal o que é "55 elevado a 0,12" sem lhe dar uma calculadora. Muitos chatbots no mercado fornecem respostas confiantes, mas erradas, para perguntas STEM. Alguns provedores de bate-papo até oferecem citações para o raciocínio incorreto nesses tipos de perguntas.

Descobrimos que a execução do código ajuda a resolver esses problemas. Concretamente, temos um desempenho melhor em vários benchmarks STEM, com base em amostras do conjunto de dados acadêmicos MMLU (categorias de matemática universitária, matemática do ensino médio, estatística do ensino médio e física do ensino médio), do ACT (seção de matemática) e do GRE (seção de matemática). Relatamos o desempenho do YouAgent em relação ao GPT-4 para demonstrar a eficácia do YouAgent em questões STEM em comparação com LLMs puros.

A tabela e o gráfico abaixo relatam a precisão do YouAgent e do GPT-4 em vários benchmarks STEM, incluindo benchmarks acadêmicos e exames de admissão de graduação e pós-graduação nos EUA.

Conforme mostrado nas imagens acima, o YouAgent tem desempenho consistentemente semelhante ou melhor que o GPT-4 em cada benchmark. Observamos um aumento absoluto de 27% na precisão em relação ao GPT-4 em uma seção oficial de prática de matemática do ACT, que é a diferença entre um aluno C- (69%) e A+ (96%). O desempenho relativo varia de acordo com as tarefas, com o YouAgent apresentando um desempenho significativamente melhor do que o GPT-4 em testes com grande volume de cálculos (por exemplo, o ACT, estatísticas do ensino médio etc.) e marginalmente melhor ou equivalente ao GPT-4 em testes de matemática mais abstratos e com menor volume de cálculos (por exemplo, o GRE, determinadas questões de matemática da faculdade etc.).

Se quiser acessar os conjuntos de dados subjacentes, fique à vontade para nos enviar um e-mail. Estamos continuamente tomando medidas para melhorar ainda mais nossa precisão em diferentes domínios matemáticos e científicos.

Comparações com outros chatbots sem execução de código

Para ilustrar algumas dessas melhorias, comparamos o YouAgent com exemplos de respostas de outras grandes ofertas de LLM para consumidores (Google, ChatGPT+ [3] e Bing), bem como algumas plataformas menores.

Com acesso a um ambiente de execução de código, juntamente com seus recursos de raciocínio em várias etapas, o YouAgent pode responder de forma mais confiável a perguntas que envolvem a realização de várias operações matemáticas do que outras ofertas de LLM para consumidores que não utilizam a execução de código.

Descobrimos que, se a GPT-4 não conseguir resolver um problema, nenhuma das empresas que usam sua API conseguirá resolver esse problema também. Dado o uso comum da API GPT-4, isso resulta em muitos chatbots de consumidores dando respostas erradas e confiantes que exigem raciocínio matemático. Para perguntas STEM, alguns mecanismos de bate-papo fornecem até mesmo citações para respostas erradas. Em alguns casos, as citações não incluem os fatos; em outros casos, elas são enganosas, mas sugerem que a resposta está apoiada e correta.

Abaixo, apresentamos alguns exemplos de respostas diferentes do YouAgent e de outros chatbots a perguntas STEM. Observe que o YouAgent também tem um desempenho melhor do que o YouChat sem o próprio @agent ao responder a determinadas perguntas STEM. Para acessar o conjunto de dados de referência do YouAgent com exemplos adicionais, entre em contato conosco.

Exemplo nº 1:

YouAgent ✅, Link para a resposta do YouAgent

Outros chatbots ❌

Exemplo nº 2:

YouAgent ✅, Link para a resposta do YouAgent

Outros chatbots ❌

Exemplo nº 3

YouAgent ✅, Link para a resposta do YouAgent

Outros chatbots ❌

Limitações e trabalhos futuros

Embora o YouAgent tenha um bom desempenho em várias tarefas STEM, devido ao seu processo de raciocínio em várias etapas combinado com o acesso a um ambiente de codificação, ainda não atingimos 100% de precisão em nossos benchmarks. Para nos aproximarmos dessa meta, serão necessárias mais pesquisas e desenvolvimento.

Outra limitação conhecida é que o YouAgent frequentemente tenta executar código, mesmo quando a codificação não é necessariamente necessária - planejamos aprender continuamente quando executar código para resolver melhor a variedade de perguntas que nossos usuários fazem à You.com todos os dias.

Nosso objetivo é expandir o YouAgent em um futuro próximo para oferecer suporte:

  • uploads de arquivos
  • saídas de imagem, como plotagens e gráficos
  • Capacidade de realizar pesquisas na Web em conjunto com a execução de códigos
  • mais bibliotecas matemáticas e científicas
  • melhor formatação do texto matemático
  • Melhorias contínuas de desempenho em vários benchmarks STEM

Se você quiser que o YouAgent inclua bibliotecas adicionais além da dúzia inicial que suportamos no momento ou se quiser solicitar outras funcionalidades, entre em contato conosco. Convidamos você a participar do nosso Disc ord ou a se candidatar a fazer parte da equipe se essa for uma direção que o entusiasma.

Conclusão

Na You.com, queremos fornecer respostas precisas para todas as perguntas. Queremos ir além do fornecimento de conhecimento e ajudar você a fazer as coisas. Para isso, continuamos a inovar nesse sentido, trazendo aos nossos usuários uma IA que pode acessar informações atualizadas on-line, decidir a melhor forma de apresentar essas informações em diferentes modalidades e agora raciocinar muito melhor sobre lógica, matemática, física e química escrevendo e executando códigos.

Para obter informações adicionais sobre o YouAgent e o You.com, consulte nossas Perguntas frequentes.

Notas de referência

[1] Vários artigos, como o LaMDA, foram publicados anteriormente e descrevem o uso da ferramenta, mas nenhum produto de consumo foi lançado com citações e acesso contínuo à Internet antes do YouChat. Para saber a data de lançamento do YouChat, consulte nosso anúncio no Twitter.

[2] https://techcrunch.com/2023/02/15/you-com-takes-aim-at-google-and-microsoft-with-multimodal-chat-search/

[3] O ChatGPT+ é executado sem um interpretador de código por padrão, o que exige a alteração das configurações. O ChatGPT+ oferece a funcionalidade mais semelhante à do YouAgent por meio da opção "Advanced data analysis" (Análise avançada de dados). No entanto, isso não está disponível para nenhuma das empresas que usam as APIs GPT-3 ou GPT-4.