Presentación de YouAgent con ejecución de código

You.com presenta YouAgent, un agente de IA con acceso a un entorno informático que le permite ejecutar código para responder a tus preguntas STEM con mayor fiabilidad.

En este ejemplo, YouAgent calcula una hipoteca mensual escribiendo y ejecutando código.
En este ejemplo, YouAgent calcula una hipoteca mensual escribiendo y ejecutando código.

Aviso: Ahora se puede acceder a la funcionalidad YouAgent a través del Modo Genius. Más información sobre el Modo Genius y otros Modos AI.

Esta entrada de blog se publicó antes de los últimos avances en IA de You.com y puede que no refleje nuestras capacidades actuales. Con una base en la búsqueda y la experiencia en IA del equipo, You.com estaba perfectamente posicionado para mejorar los LLM con acceso en directo a Internet para abordar cuestiones en torno a las alucinaciones y la transparencia. Como tal, You.com es capaz de realizar tareas que van desde la búsqueda en línea hasta la redacción de un ensayo, la depuración de código, la creación de arte digital, la resolución de problemas complejos y mucho más. Más información sobre cómo sacar el máximo partido a You.com.

You.com también ofrece su tecnología principal a través de un conjunto de API de autoservicio. Obtenga información completa sobre la YOU API.

Fondo

Los LLM han posibilitado nuevas formas de aprender y crear en Internet. Proporcionan respuestas extensas, útiles y conversacionales a muchos tipos de preguntas. Sin embargo, presentan graves deficiencias:

  1. No pueden formarse con la frecuencia suficiente para mantenerse al día, lo cual es necesario para proporcionar las referencias y citas más precisas.

  2. Alucinan -a menudo dando con seguridad respuestas incorrectas- sobre cotizaciones bursátiles, noticias recientes, personas y otras cuestiones importantes.

  3. No pueden razonar de forma fiable sobre matemáticas, ciencia y lógica.

En 2022, You.com fue el primero en lanzar un producto de consumo con un LLM que podía acceder y consultar Internet para ofrecer respuestas actualizadas y con citas [1].

En la primavera de 2023, You.com fue el primero en introducir salidas de chat multimodales para los consumidores, proporcionando con precisión gráficos, diagramas y aplicaciones interactivas para ofrecer una alternativa fiable al texto que puede contener alucinaciones para temas en tiempo real (por ejemplo, precios de las acciones, el tiempo, etc.) [2].

Presentación de YouAgent

You.com presenta hoy YouAgent. El término "agente de IA" procede de la comunidad de aprendizaje automático, que designa a una IA que no sólo observa su entorno, sino que también actúa en él. Desde su fundación, You. com se ha propuesto ser un Do-Engine que ayude a la gente a hacer las cosas, y YouAgent es el siguiente gran hito en el camino hacia esa visión.

El primer conjunto de acciones de YouAgent se habilita utilizando un entorno informático que ejecuta código Python. El LLM puede escribir código, ejecutarlo en este entorno y, a continuación, emprender nuevas acciones basadas en el resultado de la ejecución del código. Esta herramienta de interpretación de código, junto con el proceso de razonamiento en varios pasos de YouAgent, le permite responder a preguntas STEM complejas con mucha más precisión que otros LLM puros.

Cómo utilizar YouAgent

Puede utilizar YouAgent iniciando su consulta con "@agent" o "/agent" en nuestra interfaz de chat AI. Estas palabras desencadenantes indicarán a You.com que desea que actúe, lo que hoy significa ejecutar código Python en un entorno informático. Tenga en cuenta que las capacidades de acción se ampliarán en el futuro.

Actualmente, cualquier usuario conectado a You.com puede realizar hasta cinco consultas YouAgent al día. Los suscriptores de YouPro pueden realizar hasta 100 consultas YouAgent al día. Más información sobre YouPro.

Para ver cómo YouAgent genera una respuesta en You.com, vea este ejemplo.

Poner YouAgent a prueba

Pedir a un LLM que multiplique números grandes o resuelva problemas complejos de matemáticas y física es similar a preguntar a una persona normal qué es "55 a la potencia de 0,12" sin darle una calculadora. Muchos chatbots del mercado ofrecen respuestas seguras pero erróneas a preguntas STEM. Algunos proveedores de chat incluso ofrecen citas por razonamientos incorrectos en este tipo de preguntas.

Hemos comprobado que la ejecución de código ayuda a resolver estos problemas. Concretamente, obtenemos mejores resultados en varias pruebas de referencia STEM, extraídas del conjunto de datos académicos MMLU (categorías de matemáticas universitarias / matemáticas de secundaria / estadística de secundaria / física de secundaria), el ACT (sección de matemáticas) y el GRE (sección de matemáticas). Presentamos el rendimiento de YouAgent frente a GPT-4 para demostrar la eficacia de YouAgent en preguntas STEM en comparación con los LLM puros.

La tabla y el gráfico siguientes muestran la precisión de YouAgent y GPT-4 en varios puntos de referencia STEM, incluidos los puntos de referencia académicos y los exámenes de acceso a los estudios universitarios y de posgrado en Estados Unidos.

Como se muestra en las imágenes anteriores, YouAgent tiene un rendimiento similar o mejor que GPT-4 en cada una de las pruebas. Observamos un aumento absoluto del 27% en la precisión con respecto a GPT-4 en una práctica oficial de la sección de matemáticas del ACT, lo que supone la diferencia entre un estudiante C- (69%) y A+ (96%). El rendimiento relativo varía en función de las tareas: YouAgent obtiene resultados significativamente mejores que GPT-4 en pruebas con muchos cálculos (por ejemplo, el ACT, estadística de secundaria, etc.) y ligeramente mejores o equivalentes a los de GPT-4 en pruebas matemáticas más abstractas y con menos cálculos (por ejemplo, el GRE, algunas preguntas de matemáticas de la universidad, etc.).

Si desea acceder a los conjuntos de datos subyacentes, envíenos un correo electrónico. Seguimos tomando medidas para mejorar nuestra precisión en distintos ámbitos matemáticos y científicos.

Comparaciones con otros chatbots sin ejecución de código

Para ilustrar algunas de estas mejoras, comparamos YouAgent con ejemplos de respuestas de otras grandes ofertas de LLM para consumidores (Google, ChatGPT+ [3] y Bing), así como con algunas plataformas más pequeñas.

Con acceso a un entorno de ejecución de código junto con sus capacidades de razonamiento en varios pasos, YouAgent puede responder de forma más fiable a preguntas que implican la realización de varias operaciones matemáticas que otras ofertas LLM de consumo que no aprovechan la ejecución de código.

Nos encontramos con que si GPT-4 no puede resolver un problema, ninguna de las empresas que utilizan su API será capaz de resolver ese problema tampoco. Dado el uso común de la API de GPT-4, esto da lugar a que muchos chatbots de consumo den respuestas erróneas confiadas que requieren razonamiento matemático. En el caso de las preguntas STEM, algunos motores de chat incluso ofrecen citas para las respuestas erróneas. En algunos casos, las citas no incluyen los hechos en absoluto; en otros, son engañosas pero sugieren que la respuesta está respaldada y es correcta.

A continuación ofrecemos algunos ejemplos en los que YouAgent y otros chatbots responden de forma diferente a las preguntas STEM. Ten en cuenta que YouAgent también obtiene mejores resultados que YouChat sin el propio @agent al responder a determinadas preguntas STEM. Para acceder al conjunto de datos de referencia de YouAgent con ejemplos adicionales, póngase en contacto con nosotros.

Ejemplo nº 1:

YouAgent ✅, Enlace a la respuesta de YouAgent

Otros chatbots ❌

Ejemplo nº 2:

YouAgent ✅, Enlace a la respuesta de YouAgent

Otros chatbots ❌

Ejemplo nº 3

YouAgent ✅, Enlace a la respuesta de YouAgent

Otros chatbots ❌

Limitaciones y trabajo futuro

Aunque YouAgent es capaz de rendir bien en varias tareas STEM gracias a su proceso de razonamiento en varios pasos combinado con el acceso a un entorno de codificación, todavía no hemos logrado una precisión del 100% en nuestros puntos de referencia. Avanzar hacia ese objetivo requerirá más investigación y desarrollo.

Otra limitación conocida es que YouAgent intentará a menudo ejecutar código, incluso cuando la codificación no sea necesariamente necesaria - tenemos previsto aprender continuamente cuándo ejecutar código para resolver mejor la variedad de preguntas que nuestros usuarios hacen a You.com cada día.

Nuestro objetivo es ampliar YouAgent en un futuro próximo para que sea compatible:

  • carga de archivos
  • salidas de imágenes, como diagramas y gráficos
  • capacidad de realizar búsquedas en la web junto con la ejecución de código
  • más bibliotecas matemáticas y científicas
  • mejor formato del texto matemático
  • mejora continua de los resultados en varios parámetros STEM

Si te gustaría que YouAgent incluyera librerías adicionales más allá de la docena inicial que soportamos en este momento o te gustaría solicitar cualquier otra funcionalidad, por favor háznoslo saber. Te invitamos a unirte a nuestro Discord o a solicitar unirte al equipo si esta es una dirección que te entusiasma.

Conclusión

En You.com queremos dar respuestas precisas a todas las preguntas. Queremos ir más allá de proporcionar conocimientos y ayudarle a hacer las cosas. Para ello, seguimos innovando en esta dirección aportando a nuestros usuarios IA que puede acceder a información actualizada en línea, decidir cómo presentar mejor esa información en distintas modalidades y, ahora, razonar mucho mejor sobre lógica, matemáticas, física y química escribiendo y ejecutando código.

Para más información sobre YouAgent y You.com, consulte nuestras Preguntas frecuentes.

Notas de referencia

[1] Antes se habían publicado varios artículos, como LaMDA, que describen el uso de herramientas, pero ningún producto de consumo se había lanzado con citas y acceso continuo a Internet antes de YouChat. Para conocer la fecha de lanzamiento de YouChat, consulta nuestro anuncio en Twitter.

[2] https://techcrunch.com/2023/02/15/you-com-takes-aim-at-google-and-microsoft-with-multimodal-chat-search/

[3] ChatGPT+ se ejecuta sin un intérprete de código por defecto, lo que requiere cambiar la configuración. ChatGPT+ ofrece la funcionalidad más similar a YouAgent a través de su opción "Análisis avanzado de datos". Sin embargo, no está disponible para ninguna de las empresas que utilizan las API GPT-3 o GPT-4.