Presentazione di YouAgent con l'esecuzione del codice

You.com presenta YouAgent, un agente AI con accesso a un ambiente di calcolo che gli consente di eseguire codice per rispondere in modo più affidabile alle vostre domande STEM.

In questo esempio, YouAgent calcola un mutuo mensile scrivendo ed eseguendo codice.
In questo esempio, YouAgent calcola un mutuo mensile scrivendo ed eseguendo codice.

Dichiarazione di non responsabilità: le funzionalità di YouAgent sono ora accessibili attraverso la Modalità Genius. Per saperne di più sulla Modalità Genius e sulle altre Modalità AI.

Questo post è stato pubblicato prima degli ultimi progressi di You.com nel campo dell'intelligenza artificiale e potrebbe non riflettere le nostre capacità attuali. Grazie alle sue basi nella ricerca e all'esperienza del team nell'IA, You.com si è posizionato perfettamente per migliorare l'accesso a Internet da parte dei laureati in LLM e per risolvere i problemi legati alle allucinazioni e alla trasparenza. You.com è in grado di svolgere compiti che vanno dalla ricerca online alla scrittura di un saggio, al debug del codice, alla creazione di arte digitale, alla risoluzione di problemi complessi e altro ancora. Per saperne di più su come ottenere il massimo da You.com.

You.com offre la sua tecnologia di base anche attraverso una suite di API self-service. Scoprite tutti i dettagli sulle API di YOU.

Sfondo

I LLM hanno reso possibili nuovi modi di apprendere e creare su Internet. Forniscono risposte lunghe, utili e discorsive a molti tipi di domande. Tuttavia, presentano diverse gravi carenze:

  1. Non possono essere formati con sufficiente frequenza per rimanere aggiornati, il che è necessario per fornire i riferimenti e le citazioni più accurati.

  2. Hanno allucinazioni - spesso fornendo risposte errate - sui prezzi delle azioni, sulle notizie recenti, sulle persone e su altre questioni importanti.

  3. Non possono ragionare in modo affidabile su matematica, scienza e logica.

Nel 2022, You.com è stato il primo a lanciare un prodotto di consumo con un LLM in grado di accedere e fare riferimento a Internet per fornire risposte aggiornate e comprensive di citazioni [1].

Nella primavera del 2023, You.com è stato il primo a introdurre output di chat multimodali per i consumatori, fornendo accuratamente grafici, diagrammi e app interattive per offrire un'alternativa affidabile al testo che può contenere allucinazioni per argomenti in tempo reale (ad esempio, prezzi delle azioni, meteo, ecc.) [2].

Presentazione di YouAgent

Oggi You.com presenta YouAgent. Il termine "agente AI" deriva dal termine della comunità dell'apprendimento automatico per indicare un'AI che non solo osserva l'ambiente circostante, ma agisce anche all'interno di tale ambiente. Fin dalla sua fondazione, You.com ha puntato a diventare un motore del fare che può aiutare le persone a fare davvero le cose, e YouAgent è la prossima importante pietra miliare nel percorso verso questa visione.

La prima serie di azioni di YouAgent è abilitata dall'uso di un ambiente di elaborazione che esegue codice Python. Il LLM può scrivere codice, eseguirlo in questo ambiente e poi intraprendere ulteriori azioni in base ai risultati dell'esecuzione del codice. Questo strumento di interpretazione del codice, insieme al processo di ragionamento in più fasi di YouAgent, gli consente di rispondere a domande STEM complesse in modo molto più accurato rispetto ad altri LLM puri.

Come utilizzare YouAgent

Potete usare YouAgent iniziando la vostra richiesta con "@agent" o "/agent" nella nostra interfaccia di chat AI. Queste parole indicano a You.com che volete che agisca, il che oggi significa eseguire codice Python in un ambiente informatico. Si noti che le capacità di azione si amplieranno in futuro.

Attualmente, qualsiasi utente di You.com può effettuare fino a cinque interrogazioni YouAgent al giorno. Gli abbonati a YouPro possono effettuare fino a 100 ricerche YouAgent al giorno. Per saperne di più su YouPro.

Per vedere come YouAgent genera una risposta su You.com, guardate questo esempio.

Mettere alla prova YouAgent

Chiedere a un LLM di moltiplicare grandi numeri o di risolvere complessi problemi di matematica e fisica è simile a chiedere a una persona normale cosa sia "55 alla potenza di 0,12" senza darle una calcolatrice. Molti chatbot presenti sul mercato forniscono risposte sicure ma sbagliate a domande di tipo STEM. Alcuni fornitori di chat offrono addirittura citazioni per i ragionamenti errati su questo tipo di domande.

Scopriamo che l'esecuzione del codice aiuta a risolvere questi problemi. Concretamente, otteniamo risultati migliori su diversi benchmark STEM, tratti dal dataset accademico MMLU (categorie matematica universitaria / matematica delle scuole superiori / statistica delle scuole superiori / fisica delle scuole superiori), dall'ACT (sezione matematica) e dal GRE (sezione matematica). Riportiamo le prestazioni di YouAgent rispetto al GPT-4 per dimostrare l'efficacia di YouAgent sulle domande STEM rispetto ai LLM puri.

La tabella e il grafico seguenti riportano l'accuratezza di YouAgent e GPT-4 su vari benchmark STEM, tra cui benchmark accademici ed esami di ammissione a corsi di laurea/laurea negli Stati Uniti.

Come mostrato nelle immagini qui sopra, YouAgent ottiene prestazioni simili o superiori a GPT-4 in ogni benchmark. Abbiamo osservato un aumento assoluto del 27% nell'accuratezza rispetto a GPT-4 su una sezione pratica ufficiale di matematica dell'ACT, che rappresenta la differenza tra uno studente C- (69%) e A+ (96%). Le prestazioni relative variano da un compito all'altro, con YouAgent che si comporta significativamente meglio di GPT-4 nei test più impegnativi dal punto di vista del calcolo (ad esempio, l'ACT, le statistiche delle scuole superiori, ecc.) e marginalmente meglio o in modo equivalente a GPT-4 nei test matematici più astratti e meno impegnativi dal punto di vista del calcolo (ad esempio, il GRE, alcune domande di matematica universitaria, ecc.).

Se volete accedere ai set di dati sottostanti, non esitate a inviarci un'e-mail. Stiamo continuamente adottando misure per migliorare ulteriormente la nostra accuratezza in diversi ambiti matematici e scientifici.

Confronto con altri chatbot senza esecuzione di codice

Per illustrare alcuni di questi miglioramenti, confrontiamo YouAgent con le risposte di esempio di altre grandi offerte di LLM per i consumatori (Google, ChatGPT+ [3] e Bing) e di alcune piattaforme più piccole.

Grazie all'accesso a un ambiente di esecuzione del codice e alle sue capacità di ragionamento in più fasi, YouAgent è in grado di rispondere in modo più affidabile a domande che prevedono l'esecuzione di varie operazioni matematiche rispetto ad altre offerte LLM consumer che non sfruttano l'esecuzione del codice.

Abbiamo scoperto che se GPT-4 non è in grado di risolvere un problema, anche nessuna delle aziende che utilizzano la sua API sarà in grado di risolverlo. Dato l'uso comune dell'API GPT-4, ciò si traduce in molti chatbot per i consumatori che danno risposte sbagliate che richiedono un ragionamento matematico. Per le domande STEM, alcuni motori di chat forniscono persino citazioni per le risposte sbagliate. In alcuni casi, le citazioni non includono affatto i fatti; in altri casi, sono fuorvianti ma suggeriscono che la risposta è supportata e corretta.

Di seguito riportiamo alcuni esempi di come YouAgent e altri chatbot rispondano in modo diverso a domande di tipo STEM. Si noti che YouAgent ha anche prestazioni migliori di YouChat senza @agent stesso quando risponde ad alcune domande STEM. Per accedere al dataset di benchmark di YouAgent con ulteriori esempi, contattateci.

Esempio n. 1:

YouAgent ✅, Link alla risposta di YouAgent

Altri chatbot ❌

Esempio n. 2:

YouAgent ✅, Link alla risposta di YouAgent

Altri chatbot ❌

Esempio n. 3

YouAgent ✅, Link alla risposta di YouAgent

Altri chatbot ❌

Limitazioni e lavoro futuro

Sebbene YouAgent sia in grado di ottenere buoni risultati in vari compiti STEM, grazie al suo processo di ragionamento in più fasi combinato con l'accesso a un ambiente di codifica, non abbiamo ancora raggiunto il 100% di precisione nei nostri benchmark. Per avvicinarsi a questo obiettivo saranno necessarie ulteriori ricerche e sviluppi.

Un'altra limitazione nota è che YouAgent tenta spesso di eseguire il codice, anche quando non è necessariamente richiesto - abbiamo intenzione di imparare continuamente quando eseguire il codice per risolvere meglio la varietà di domande che i nostri utenti pongono a You.com ogni giorno.

Nel prossimo futuro intendiamo espandere YouAgent per supportare:

  • caricamento di file
  • output di immagini, come diagrammi e grafici
  • capacità di eseguire ricerche sul Web insieme all'esecuzione di codice
  • più biblioteche matematiche e scientifiche
  • migliore formattazione del testo matematico
  • continui miglioramenti delle prestazioni nei vari benchmark STEM

Se desiderate che YouAgent includa altre librerie oltre alla dozzina iniziale che supportiamo al momento o se volete richiedere altre funzionalità, fatecelo sapere. Vi invitiamo a unirvi al nostro Discord o a candidarvi per entrare a far parte del team se questa è una direzione che vi entusiasma.

Conclusione

Noi di You.com vogliamo fornire risposte accurate a tutte le domande. Vogliamo andare oltre la conoscenza e aiutarvi a fare le cose. A tal fine, continuiamo a innovare in questa direzione portando ai nostri utenti un'intelligenza artificiale in grado di accedere a informazioni aggiornate online, di decidere come presentare al meglio tali informazioni in diverse modalità e di ragionare molto meglio su logica, matematica, fisica e chimica scrivendo ed eseguendo codice.

Per ulteriori informazioni su YouAgent e You.com, consultare le nostre Domande frequenti.

Note di riferimento

[1] In precedenza erano stati pubblicati diversi documenti, come LaMDA, che descrivevano l'uso degli strumenti, ma nessun prodotto di consumo era stato lanciato con citazioni e accesso continuo a Internet prima di YouChat. Per la data di lancio di YouChat, vedere il nostro annuncio su Twitter.

[2] https://techcrunch.com/2023/02/15/you-com-takes-aim-at-google-and-microsoft-with-multimodal-chat-search/

[3] ChatGPT+ viene eseguito senza un interprete di codice per impostazione predefinita, il che richiede la modifica delle impostazioni. ChatGPT+ offre la funzionalità più simile a YouAgent attraverso l'opzione "Analisi avanzata dei dati". Tuttavia, questa opzione non è disponibile per nessuna delle aziende che utilizzano le API GPT-3 o GPT-4.