Einführung in YouAgent mit Code-Ausführung

You.com stellt YouAgent vor, einen KI-Agenten mit Zugang zu einer Computerumgebung, die es ihm ermöglicht, Code auszuführen, um Ihre MINT-Fragen zuverlässiger zu beantworten.

In diesem Beispiel berechnet YouAgent eine monatliche Hypothek, indem es Code schreibt und ausführt.
In diesem Beispiel berechnet YouAgent eine monatliche Hypothek, indem es Code schreibt und ausführt.

Haftungsausschluss: Die YouAgent-Funktionalität kann jetzt über den Genius-Modus genutzt werden. Erfahren Sie mehr über den Genius-Modus und andere AI-Modi.

Dieser Blogbeitrag wurde vor den jüngsten KI-Fortschritten von You.com veröffentlicht und spiegelt möglicherweise nicht unsere aktuellen Fähigkeiten wider. Mit seiner Grundlage in der Suche und der KI-Expertise des Teams war You.com perfekt positioniert, um LLMs mit Live-Zugang zum Internet zu verbessern und Fragen zu Halluzinationen und Transparenz zu klären. You.com ist in der Lage, Aufgaben zu übernehmen, die von der Online-Suche bis zum Schreiben eines Aufsatzes, dem Debuggen von Code, dem Erstellen digitaler Kunst, dem Lösen komplexer Probleme und vielem mehr reichen. Erfahren Sie mehr darüber, wie Sie das Beste aus You.com herausholen können.

You.com bietet seine Kerntechnologie auch über eine Reihe von APIs zur Selbstbedienung an. Erfahren Sie alle Details über die YOU API.

Hintergrund

LLMs haben neue Wege des Lernens und Schaffens im Internet ermöglicht. Sie bieten lange, nützliche und unterhaltsame Antworten auf viele verschiedene Arten von Fragen. Allerdings weisen sie auch einige gravierende Mängel auf:

  1. Sie können nicht oft genug geschult werden, um immer auf dem neuesten Stand zu sein, was für möglichst genaue Referenzen und Zitate notwendig ist.

  2. Sie halluzinieren - und geben oft selbstbewusst falsche Antworten - über Aktienkurse, aktuelle Nachrichten, Menschen und andere wichtige Fragen.

  3. Sie können nicht zuverlässig über Mathematik, Wissenschaft und Logik nachdenken.

Im Jahr 2022 brachte You.com als erstes Unternehmen ein Verbraucherprodukt mit einem LLM auf den Markt, das auf das Internet zugreifen und darauf verweisen konnte, um aktuelle Antworten mit Quellenangaben zu liefern [1].

Im Frühjahr 2023 war You.com das erste Unternehmen, das multimodale Chat-Ausgaben für Verbraucher einführte und mit präzisen Grafiken, Diagrammen und interaktiven Apps eine verlässliche Alternative zu Text bot, der bei Echtzeitthemen (z. B. Aktienkurse, Wetter usw.) Halluzinationen enthalten kann [2].

YouAgent stellt sich vor

Heute stellt You.com den YouAgent vor. Der Begriff "KI-Agent" stammt aus dem Bereich des maschinellen Lernens und bezeichnet eine KI, die nicht nur ihre Umgebung beobachtet, sondern auch in dieser Umgebung aktiv wird. You.com hat sich seit seiner Gründung zum Ziel gesetzt, eine Do-Engine zu sein, die Menschen dabei helfen kann, Dinge zu erledigen, und YouAgent ist der nächste große Meilenstein auf dem Weg zu dieser Vision.

Die erste Gruppe von Aktionen von YouAgent wird durch die Verwendung einer Rechenumgebung ermöglicht, in der Python-Code ausgeführt wird. Der LLM kann Code schreiben, ihn in dieser Umgebung ausführen und dann weitere Maßnahmen auf der Grundlage der Ergebnisse der Codeausführung ergreifen. Dieses Code-Interpreter-Tool zusammen mit dem mehrstufigen Denkprozess von YouAgent ermöglicht es ihm, komplexe MINT-Fragen viel genauer zu beantworten als andere reine LLMs.

Wie Sie YouAgent verwenden

Sie können YouAgent verwenden, indem Sie Ihre Anfrage mit "@agent" oder "/agent" in unserer KI-Chat-Schnittstelle beginnen. Mit diesen Auslösewörtern teilen Sie You.com mit, dass Sie eine Aktion wünschen, was heute die Ausführung von Python-Code in einer Computerumgebung bedeutet. Beachten Sie, dass die Aktionsmöglichkeiten in Zukunft erweitert werden.

Derzeit kann jeder eingeloggte You.com-Benutzer bis zu fünf YouAgent-Abfragen pro Tag durchführen. YouPro-Abonnenten können bis zu 100 YouAgent-Abfragen pro Tag durchführen. Erfahren Sie mehr über YouPro.

Um zu sehen, wie YouAgent eine Antwort auf You.com erzeugt, sehen Sie sich dieses Beispiel an.

YouAgent auf dem Prüfstand

Einen LLM zu bitten, große Zahlen zu multiplizieren oder komplexe mathematische und physikalische Probleme zu lösen, ist vergleichbar damit, einen normalen Menschen zu fragen, was "55 hoch 0,12" ist, ohne ihm einen Taschenrechner zu geben. Viele Chatbots auf dem Markt geben selbstbewusste, aber falsche Antworten auf MINT-Fragen. Einige Chat-Anbieter bieten sogar Zitate für falsche Begründungen bei dieser Art von Fragen an.

Wir stellen fest, dass die Codeausführung bei diesen Problemen hilft. Konkret schneiden wir bei mehreren MINT-Benchmarks besser ab, die aus dem akademischen MMLU-Datensatz (Kategorien College-Mathematik / High-School-Mathematik / High-School-Statistik / High-School-Physik), dem ACT (mathematischer Teil) und dem GRE (mathematischer Teil) ausgewählt wurden. Wir berichten über die Leistung von YouAgent bei GPT-4, um die Effektivität von YouAgent bei MINT-Fragen im Vergleich zu reinen LLMs zu demonstrieren.

Die nachstehende Tabelle und das Diagramm zeigen die Genauigkeit von YouAgent und GPT-4 bei verschiedenen MINT-Benchmarks, einschließlich akademischer Benchmarks sowie US-Aufnahmeprüfungen für Studenten und Hochschulabsolventen.

Wie in den obigen Abbildungen zu sehen ist, schneidet YouAgent bei jedem Benchmark ähnlich oder besser ab als GPT-4. Bei einem offiziellen ACT-Mathe-Testteil wurde eine absolute Steigerung der Genauigkeit um 27 % gegenüber GPT-4 festgestellt, was dem Unterschied zwischen einem C- (69 %) und einem A+ (96 %) Schüler entspricht. Die relative Leistung variiert zwischen den einzelnen Aufgaben, wobei YouAgent bei rechenintensiven Tests (z. B. ACT, High-School-Statistiken usw.) deutlich besser als GPT-4 abschneidet und bei abstrakteren, weniger rechenintensiven Mathetests (z. B. GRE, bestimmte Mathefragen für das College usw.) geringfügig besser oder gleichwertig ist.

Wenn Sie Zugang zu den zugrundeliegenden Datensätzen haben möchten, können Sie uns gerne eine E-Mail schicken. Wir unternehmen ständig Schritte, um unsere Genauigkeit in verschiedenen mathematischen und wissenschaftlichen Bereichen weiter zu verbessern.

Vergleiche mit anderen Chatbots ohne Codeausführung

Um einige dieser Verbesserungen zu veranschaulichen, vergleichen wir YouAgent mit Beispielantworten von anderen großen LLM-Angeboten für Verbraucher (Google, ChatGPT+ [3] und Bing) sowie mit einigen kleineren Plattformen.

Durch den Zugriff auf eine Code-Ausführungsumgebung und seine mehrstufigen Argumentationsfähigkeiten kann YouAgent Fragen, die die Durchführung verschiedener mathematischer Operationen beinhalten, zuverlässiger beantworten als andere LLM-Angebote für Verbraucher, die keine Code-Ausführung nutzen.

Wir stellen fest, dass, wenn GPT-4 ein Problem nicht lösen kann, auch keines der Unternehmen, die seine API nutzen, in der Lage ist, dieses Problem zu lösen. Angesichts der häufigen Verwendung der GPT-4-API führt dies dazu, dass viele Chatbots für Verbraucher selbstbewusst falsche Antworten geben, die mathematische Überlegungen erfordern. Bei MINT-Fragen geben einige Chatbots sogar Zitate für falsche Antworten an. In einigen Fällen enthalten die Zitate überhaupt keine Fakten; in anderen Fällen sind sie irreführend, suggerieren aber, dass die Antwort abgesichert und richtig ist.

Im Folgenden finden Sie einige Beispiele dafür, wie YouAgent und andere Chatbots unterschiedlich auf MINT-Fragen reagieren. Beachten Sie, dass YouAgent bei der Beantwortung bestimmter MINT-Fragen auch besser abschneidet als YouChat ohne @agent selbst. Um Zugang zum YouAgent-Benchmark-Datensatz mit weiteren Beispielen zu erhalten, wenden Sie sich bitte an uns.

Beispiel #1:

YouAgent ✅, Link zur YouAgent-Antwort

Andere Chatbots ❌

Beispiel #2:

YouAgent ✅, Link zur YouAgent-Antwort

Andere Chatbots ❌

Beispiel #3

YouAgent ✅, Link zur YouAgent-Antwort

Andere Chatbots ❌

Beschränkungen und künftige Arbeiten

Obwohl YouAgent aufgrund seines mehrstufigen Denkprozesses in Kombination mit dem Zugang zu einer Programmierumgebung in der Lage ist, bei verschiedenen MINT-Aufgaben gute Leistungen zu erbringen, haben wir bei unseren Benchmarks noch keine 100%ige Genauigkeit erreicht. Um diesem Ziel näher zu kommen, bedarf es weiterer Forschung und Entwicklung.

Eine weitere bekannte Einschränkung ist, dass YouAgent oft versucht, Code auszuführen, auch wenn dies nicht unbedingt erforderlich ist - wir planen, kontinuierlich zu lernen, wann Code ausgeführt werden sollte, um die Vielzahl der Fragen, die unsere Nutzer täglich an You.com stellen, besser lösen zu können.

Wir beabsichtigen, YouAgent in naher Zukunft zu erweitern und zu unterstützen:

  • Datei-Uploads
  • Bildausgaben wie Plots und Diagramme
  • Fähigkeit, eine Websuche in Verbindung mit der Codeausführung durchzuführen
  • mehr mathematische und wissenschaftliche Bibliotheken
  • bessere Formatierung von mathematischem Text
  • kontinuierliche Leistungsverbesserungen bei verschiedenen STEM-Benchmarks

Wenn Sie möchten, dass YouAgent über das anfängliche Dutzend, das wir derzeit unterstützen, hinaus weitere Bibliotheken enthält, oder wenn Sie andere Funktionalitäten wünschen, lassen Sie es uns bitte wissen. Wir laden Sie ein, unserem Discord beizutreten oder sich als Mitglied des Teams zu bewerben, wenn Sie diese Richtung reizt.

Schlussfolgerung

Bei You.com möchten wir auf alle Fragen genaue Antworten geben. Wir wollen mehr als nur Wissen vermitteln und Ihnen helfen, Dinge zu erledigen. Um dies zu erreichen, setzen wir unsere Innovation in dieser Richtung fort, indem wir unseren Nutzern eine KI zur Verfügung stellen, die online auf aktuelle Informationen zugreifen kann, die entscheiden kann, wie diese Informationen am besten in verschiedenen Modalitäten präsentiert werden, und die jetzt viel besser über Logik, Mathematik, Physik und Chemie nachdenken kann, indem sie Code schreibt und ausführt.

Weitere Informationen über YouAgent und You.com finden Sie in unseren häufig gestellten Fragen.

Referenz-Notizen

[1] Zuvor waren verschiedene Arbeiten, wie z. B. LaMDA, veröffentlicht worden, in denen die Verwendung von Tools beschrieben wurde, aber vor YouChat war noch kein Verbraucherprodukt mit Zitaten und kontinuierlichem Internetzugang auf den Markt gekommen. Das Datum der Einführung von YouChat finden Sie in unserer Ankündigung auf Twitter.

[2] https://techcrunch.com/2023/02/15/you-com-takes-aim-at-google-and-microsoft-with-multimodal-chat-search/

[3] ChatGPT+ wird standardmäßig ohne einen Code-Interpreter ausgeführt, was eine Änderung der Einstellungen erfordert. ChatGPT+ bietet mit der Option "Erweiterte Datenanalyse" die ähnlichste Funktionalität wie YouAgent. Diese steht jedoch keinem der Unternehmen zur Verfügung, die GPT-3 oder GPT-4 APIs verwenden.