Présentation de YouAgent avec exécution de code

You.com présente YouAgent, un agent d'intelligence artificielle ayant accès à un environnement informatique, ce qui lui permet d'exécuter du code pour répondre de manière plus fiable à vos questions sur les sciences de la vie et de la terre.

Dans cet exemple, YouAgent calcule une hypothèque mensuelle en écrivant et en exécutant du code.
Dans cet exemple, YouAgent calcule une hypothèque mensuelle en écrivant et en exécutant du code.

Clause de non-responsabilité : les fonctionnalités de YouAgent sont désormais accessibles via le mode Genius. En savoir plus sur le mode Genius et les autres modes d'IA.

Ce billet de blog a été publié avant les dernières avancées de You.com en matière d'IA et peut ne pas refléter nos capacités actuelles. Avec une base en recherche et l'expertise en IA de l'équipe, You.com était parfaitement positionné pour améliorer les LLM avec un accès en direct à l'Internet afin d'aborder les questions relatives aux hallucinations et à la transparence. Ainsi, You.com est capable d'effectuer des tâches allant de la recherche en ligne à la rédaction d'un essai, en passant par le débogage de code, la création d'œuvres d'art numériques, la résolution de problèmes complexes, etc. En savoir plus sur la façon de tirer le meilleur parti de You.com.

You.com propose également sa technologie de base par le biais d'une série d'API en libre-service. Obtenez tous les détails sur l'API YOU.

Contexte

Les LLM ont permis de nouvelles façons d'apprendre et de créer sur l'internet. Ils fournissent des réponses détaillées, utiles et conversationnelles à de nombreux types de questions. Cependant, ils présentent plusieurs lacunes importantes :

  1. Ils ne peuvent pas être formés assez fréquemment pour rester à jour, ce qui est nécessaire pour fournir les références et les citations les plus précises.

  2. Ils hallucinent - en donnant souvent avec assurance des réponses erronées - sur les cours de la bourse, les nouvelles récentes, les personnes et d'autres questions importantes.

  3. Ils ne peuvent pas raisonner de manière fiable sur les mathématiques, les sciences et la logique.

En 2022, You.com a été le premier à lancer un produit grand public avec un LLM qui pouvait accéder à Internet et s'y référer pour fournir des réponses actualisées et contenant des citations [1].

Au printemps 2023, You.com a été le premier à introduire des sorties de chat multimodales pour les consommateurs, en fournissant avec précision des diagrammes, des graphiques et des applications interactives pour offrir une alternative fiable au texte qui peut contenir des hallucinations pour des sujets en temps réel (par exemple, les cours de la bourse, la météo, etc.) [2].

Présentation de YouAgent

Aujourd'hui, You.com présente YouAgent. Le terme "agent d'intelligence artificielle" provient du terme utilisé par la communauté de l'apprentissage automatique pour désigner une intelligence artificielle qui ne se contente pas d'observer son environnement, mais qui prend également des mesures au sein de cet environnement. Depuis sa création, You.com s'est fixé pour objectif d'être un moteur d'action capable d'aider les gens à accomplir des tâches, et YouAgent est la prochaine étape importante sur la voie de cette vision.

La première série d'actions de YouAgent est rendue possible par l'utilisation d'un environnement informatique qui exécute du code Python. Le LLM peut écrire du code, l'exécuter dans cet environnement, puis prendre d'autres mesures en fonction des résultats de l'exécution du code. Cet outil d'interprétation de code, associé au processus de raisonnement en plusieurs étapes de YouAgent, lui permet de répondre à des questions STEM complexes de manière beaucoup plus précise que d'autres LLM purs.

Comment utiliser YouAgent

Vous pouvez utiliser YouAgent en commençant votre requête par "@agent" ou "/agent" dans notre interface de chat AI. Ces mots déclencheurs indiqueront à You.com que vous souhaitez qu'il agisse, ce qui signifie aujourd'hui exécuter un code Python dans un environnement informatique. Notez que les capacités d'action seront étendues à l'avenir.

Actuellement, tout utilisateur connecté à You.com peut effectuer jusqu'à cinq requêtes YouAgent par jour. Les abonnés YouPro peuvent effectuer jusqu'à 100 requêtes YouAgent par jour. En savoir plus sur YouPro.

Pour voir comment YouAgent génère une réponse sur You.com, consultez cet exemple.

Mettre YouAgent à l'épreuve

Demander à un LLM de multiplier de grands nombres ou de résoudre des problèmes mathématiques et physiques complexes revient à demander à une personne normale ce que représente "55 à la puissance 0,12" sans lui donner de calculatrice. De nombreux chatbots sur le marché fournissent des réponses confiantes mais erronées aux questions relatives aux STIM. Certains fournisseurs de chatbots proposent même des citations pour les raisonnements incorrects sur ces types de questions.

Nous constatons que l'exécution du code permet de résoudre ces problèmes. Concrètement, nous obtenons de meilleures performances sur plusieurs benchmarks STEM, échantillonnés à partir de l'ensemble de données académiques MMLU (catégories mathématiques de collège / mathématiques de lycée / statistiques de lycée / physique de lycée), de l'ACT (section mathématiques), et du GRE (section mathématiques). Nous présentons les performances de YouAgent par rapport à GPT-4 afin de démontrer l'efficacité de YouAgent sur les questions STEM par rapport aux LLM purs.

Le tableau et le graphique ci-dessous indiquent la précision de YouAgent et de GPT-4 sur divers critères de référence dans le domaine des STIM, y compris des critères académiques ainsi que des examens d'entrée aux universités et aux grandes écoles américaines.

Comme le montrent les images ci-dessus, YouAgent obtient systématiquement des résultats similaires ou supérieurs à ceux de GPT-4 pour chaque test de référence. Nous observons une augmentation absolue de 27 % de la précision par rapport à GPT-4 sur un test officiel de mathématiques de l'ACT, ce qui représente la différence entre un étudiant C- (69 %) et A+ (96 %). Les performances relatives varient d'une tâche à l'autre, YouAgent étant nettement plus performant que GPT-4 sur les tests à forte intensité de calcul (par exemple, l'ACT, les statistiques du secondaire, etc.) et marginalement meilleur ou équivalent à GPT-4 sur les tests de mathématiques plus abstraits et à moindre intensité de calcul (par exemple, le GRE, certaines questions de mathématiques de l'enseignement supérieur, etc.)

Si vous souhaitez accéder aux ensembles de données sous-jacents, n'hésitez pas à nous envoyer un courriel. Nous prenons continuellement des mesures pour améliorer notre précision dans différents domaines mathématiques et scientifiques.

Comparaisons avec d'autres chatbots sans exécution de code

Pour illustrer certaines de ces améliorations, nous comparons YouAgent à des exemples de réponses provenant d'autres offres de LLM grand public (Google, ChatGPT+ [3] et Bing) ainsi que de quelques plateformes plus petites.

Grâce à l'accès à un environnement d'exécution de code et à ses capacités de raisonnement en plusieurs étapes, YouAgent peut répondre de manière plus fiable aux questions qui impliquent l'exécution de diverses opérations mathématiques que d'autres offres LLM grand public qui n'exploitent pas l'exécution de code.

Nous constatons que si GPT-4 ne peut pas résoudre un problème, aucune des entreprises qui utilisent son API ne sera en mesure de résoudre ce problème non plus. Étant donné l'utilisation courante de l'API GPT-4, de nombreux chatbots grand public donnent en toute confiance de mauvaises réponses qui nécessitent un raisonnement mathématique. Pour les questions relatives aux STEM, certains moteurs de chat donnent même des citations pour les mauvaises réponses. Dans certains cas, les citations n'incluent pas du tout les faits ; dans d'autres cas, elles sont trompeuses mais suggèrent que la réponse est étayée et correcte.

Nous présentons ci-dessous quelques exemples de YouAgent et d'autres chatbots répondant différemment aux questions STEM. Notez que YouAgent est également plus performant que YouChat sans @agent lui-même lorsqu'il s'agit de répondre à certaines questions STEM. Pour accéder à l'ensemble de données de référence YouAgent avec des exemples supplémentaires, veuillez nous contacter.

Exemple n° 1 :

YouAgent ✅, Lien vers la réponse YouAgent

Autres chatbots ❌

Exemple n° 2 :

YouAgent ✅, Lien vers la réponse YouAgent

Autres chatbots ❌

Exemple n° 3

YouAgent ✅, Lien vers la réponse YouAgent

Autres chatbots ❌

Limites et travaux futurs

Bien que YouAgent soit capable de réaliser de bonnes performances dans diverses tâches STEM grâce à son processus de raisonnement en plusieurs étapes combiné à l'accès à un environnement de codage, nous n'avons pas encore atteint une précision de 100 % sur nos points de référence. Pour se rapprocher de cet objectif, il faudra poursuivre la recherche et le développement.

Une autre limite connue est que YouAgent essaiera souvent d'exécuter du code, même lorsque le codage n'est pas nécessairement nécessaire - nous prévoyons d'apprendre continuellement quand exécuter du code afin de mieux résoudre les diverses questions que nos utilisateurs posent à You.com chaque jour.

Nous avons l'intention de développer YouAgent dans un avenir proche afin de prendre en charge :

  • téléchargement de fichiers
  • les sorties d'images telles que les tracés et les graphiques
  • la possibilité d'effectuer des recherches sur le web en même temps que l'exécution de codes
  • plus de bibliothèques mathématiques et scientifiques
  • un meilleur formatage du texte mathématique
  • Amélioration continue des performances dans le cadre de divers critères de référence STEM

Si vous souhaitez que YouAgent inclue des bibliothèques supplémentaires au-delà de la douzaine initiale que nous supportons actuellement ou si vous souhaitez demander d'autres fonctionnalités, n'hésitez pas à nous le faire savoir. Nous vous invitons à rejoindre notre Discord ou à postuler pour rejoindre l'équipe si cette direction vous intéresse.

Conclusion

Sur You.com, nous souhaitons apporter des réponses précises à toutes les questions. Nous voulons aller au-delà de l'apport de connaissances et vous aider à accomplir des tâches. Pour ce faire, nous continuons à innover dans cette direction en apportant à nos utilisateurs une IA capable d'accéder à des informations actualisées en ligne, de décider de la meilleure façon de présenter ces informations dans différentes modalités, et maintenant de raisonner beaucoup mieux sur la logique, les mathématiques, la physique et la chimie en écrivant et en exécutant du code.

Pour plus d'informations sur YouAgent et You.com, veuillez consulter notre Foire aux questions.

Notes de référence

[Plusieurs articles, tels que LaMDA, avaient été publiés auparavant pour décrire l'utilisation des outils, mais aucun produit de consommation n'avait été lancé avec des citations et un accès continu à l'internet avant YouChat. Pour connaître la date de lancement de YouChat, consultez notre annonce sur Twitter.

[2] https://techcrunch.com/2023/02/15/you-com-takes-aim-at-google-and-microsoft-with-multimodal-chat-search/

[Par défaut, ChatGPT+ est exécuté sans interpréteur de code, ce qui nécessite de modifier les paramètres. ChatGPT+ offre la fonctionnalité la plus similaire à YouAgent grâce à son option "Analyse avancée des données". Cependant, cette option n'est pas disponible pour les entreprises qui utilisent les API GPT-3 ou GPT-4.