Представление YouAgent с функцией выполнения кода

You.com представляет YouAgent - агента искусственного интеллекта, имеющего доступ к вычислительной среде, что позволяет ему выполнять код для более надежных ответов на ваши STEM-вопросы.

В данном примере YouAgent рассчитывает ежемесячную ипотеку путем написания и выполнения кода.
В данном примере YouAgent рассчитывает ежемесячную ипотеку путем написания и выполнения кода.

Отказ от ответственности: функциональность YouAgent теперь доступна через режим Genius Mode. Узнайте больше о режиме Genius и других режимах AI.

Эта запись в блоге была опубликована до того, как на You.com появились последние достижения в области искусственного интеллекта, и может не отражать наши текущие возможности. Основываясь на поиске и опыте команды в области искусственного интеллекта, You.com был идеально приспособлен для улучшения работы LLM с живым доступом в Интернет, чтобы решить проблемы, связанные с галлюцинациями и прозрачностью. Таким образом, You.com способен решать самые разные задачи - от поиска в Интернете до написания эссе, отладки кода, создания цифрового искусства, решения сложных задач и многого другого. Узнайте больше о том, как получить максимальную отдачу от You.com.

You.com также предлагает свои основные технологии через набор API для самообслуживания. Получите полную информацию об API YOU.

Фон

LLM открыли новые возможности для обучения и творчества в Интернете. Они дают развернутые, полезные и разговорные ответы на самые разные вопросы. Однако они имеют и ряд серьезных недостатков:

  1. Они не могут проходить обучение достаточно часто, чтобы постоянно быть в курсе событий, что необходимо для обеспечения наиболее точных ссылок и цитат.

  2. Они галлюцинируют - часто уверенно давая неверные ответы - о ценах на акции, последних новостях, людях и других важных вопросах.

  3. Они не могут достоверно рассуждать о математике, науке и логике.

В 2022 году компания You.com первой выпустила потребительский продукт с LLM, способный обращаться к Интернету и предоставлять актуальные ответы с цитатами [1].

Весной 2023 года компания You.com первой представила потребителям мультимодальный вывод информации в чате, точно представляя графики, диаграммы и интерактивные приложения, чтобы предложить надежную альтернативу тексту, который может содержать галлюцинации, для тем реального времени (например, цены на акции, погода и т.д.) [2].

Представляем YouAgent

Сегодня You.com представляет YouAgent. Термин "ИИ-агент" происходит от термина, используемого в сообществе машинного обучения для обозначения ИИ, который не только наблюдает за окружающей средой, но и предпринимает действия в ней. С момента своего основания You.com стремился стать инструментом Do-Engine, который помогает людям добиваться поставленных целей, и YouAgent - это следующая важная веха на пути к достижению этой цели.

Первый набор действий YouAgent обеспечивается за счет использования вычислительной среды, в которой выполняется код на языке Python. LLM может написать код, запустить его в этой среде, а затем предпринять дальнейшие действия на основе результатов выполнения кода. Этот инструмент интерпретации кода, а также многоступенчатый процесс рассуждений YouAgent позволяют ему отвечать на сложные вопросы STEM гораздо точнее, чем другим чистым LLM.

Как использовать YouAgent

Вы можете использовать YouAgent, начав свой запрос с "@agent" или "/agent" в нашем чат-интерфейсе искусственного интеллекта. Эти триггерные слова сообщат You.com, что вы хотите, чтобы он начал действовать, что сегодня означает выполнение кода Python в вычислительной среде. В будущем возможности выполнения действий будут расширяться.

В настоящее время любой пользователь You.com, вошедший в систему, может сделать до пяти запросов к YouAgent в день. Подписчики YouPro могут делать до 100 запросов к YouAgent в день. Подробнее о YouPro.

Чтобы увидеть, как YouAgent генерирует ответ на сайте You.com, просмотрите этот пример.

Испытание YouAgent на практике

Просить LLM перемножать большие числа или решать сложные задачи по математике и физике - это то же самое, что спрашивать у обычного человека, что такое "55 в степени 0,12", не давая ему калькулятор. Многие чат-боты, представленные на рынке, дают уверенные, но неверные ответы на STEM-вопросы. Некоторые поставщики чат-ботов даже предлагают ссылки на неверные рассуждения по таким вопросам.

Мы обнаружили, что выполнение кода помогает решить эти проблемы. В частности, мы показали лучшие результаты на нескольких эталонах STEM, взятых из академического набора данных MMLU (категории "Математика в колледже" / "Математика в средней школе" / "Статистика в средней школе" / "Физика в средней школе"), ACT (раздел "Математика") и GRE (раздел "Математика"). Мы приводим результаты работы YouAgent в GPT-4, чтобы продемонстрировать эффективность YouAgent в вопросах STEM по сравнению с чистыми LLM.

В таблице и на диаграмме ниже приведены результаты тестирования YouAgent и GPT-4 по различным STEM-тестам, включая академические эталоны, а также вступительные экзамены в вузы США.

Как видно из приведенных изображений, YouAgent демонстрирует стабильно высокие результаты по сравнению с GPT-4 в каждом из эталонов. Мы наблюдаем абсолютный прирост точности по сравнению с GPT-4 на 27% в официальном практическом разделе математики ACT, что составляет разницу между студентами C- (69%) и A+ (96%). Относительная производительность варьируется между заданиями: YouAgent значительно превосходит GPT-4 в тестах, требующих больших вычислений (например, ACT, статистика в средней школе и т.д.), и незначительно превосходит GPT-4 в более абстрактных тестах, не требующих больших вычислений (например, GRE, некоторые вопросы по математике в колледже и т.д.).

Если вы хотите получить доступ к базовым наборам данных, пишите нам по электронной почте. Мы постоянно принимаем меры по дальнейшему повышению точности наших данных в различных математических и научных областях.

Сравнение с другими чат-ботами без выполнения кода

Чтобы проиллюстрировать некоторые из этих улучшений, мы сравниваем YouAgent с примерами ответов из других крупных потребительских LLM-предложений (Google, ChatGPT+ [3] и Bing), а также некоторых небольших платформ.

Благодаря доступу к среде выполнения кода и возможностям многоэтапных рассуждений YouAgent может более надежно отвечать на вопросы, связанные с выполнением различных математических операций, чем другие потребительские LLM-предложения, не использующие возможности выполнения кода.

Мы обнаружили, что если GPT-4 не может решить проблему, то ни одна из компаний, использующих его API, также не сможет решить эту проблему. Учитывая широкое использование API GPT-4, это приводит к тому, что многие потребительские чат-боты уверенно дают неверные ответы на вопросы, требующие математического обоснования. Для вопросов STEM некоторые чат-боты даже приводят цитаты для неправильных ответов. В некоторых случаях ссылки вообще не содержат фактов; в других случаях они вводят в заблуждение, но предполагают, что ответ подкреплен и является правильным.

Ниже мы приводим несколько примеров того, как YouAgent и другие чат-боты по-разному отвечают на вопросы STEM. Обратите внимание, что YouAgent также лучше, чем YouChat без @agent, отвечает на некоторые STEM-вопросы. Для получения доступа к эталонному набору данных YouAgent с дополнительными примерами, пожалуйста, свяжитесь с нами.

Пример № 1:

YouAgent ✅, Ссылка на ответ YouAgent

Другие чатботы ❌

Пример №2:

YouAgent ✅, Ссылка на ответ YouAgent

Другие чатботы ❌

Пример №3

YouAgent ✅, Ссылка на ответ YouAgent

Другие чатботы ❌

Ограничения и дальнейшая работа

Несмотря на то, что YouAgent способен хорошо справляться с различными STEM-задачами благодаря многоэтапному процессу рассуждений в сочетании с доступом к среде кодирования, мы все еще не достигли 100%-ной точности в наших тестах. Для достижения этой цели потребуются дополнительные исследования и разработки.

Другим известным ограничением является то, что YouAgent часто пытается выполнить код, даже когда его выполнение не обязательно - мы планируем постоянно изучать, когда следует выполнять код, чтобы лучше решать разнообразные вопросы, которые наши пользователи задают You.com каждый день.

В ближайшем будущем мы планируем расширить возможности YouAgent для поддержки:

  • загрузка файлов
  • вывод изображений, таких как графики и диаграммы
  • возможность осуществлять веб-поиск в сочетании с выполнением кода
  • больше математических и научных библиотек
  • улучшенное форматирование математического текста
  • постоянное улучшение показателей по различным контрольным параметрам STEM

Если вы хотите, чтобы YouAgent включал в себя дополнительные библиотеки, помимо той дюжины, которую мы поддерживаем в настоящее время, или хотите запросить какие-либо другие функциональные возможности, пожалуйста, сообщите нам об этом. Мы приглашаем вас присоединиться к нашему Discord или подать заявку на вступление в команду, если вас привлекает это направление.

Заключение

На сайте You.com мы хотим дать точные ответы на все вопросы. Мы хотим выйти за рамки предоставления знаний и помочь вам в решении задач. Для этого мы продолжаем внедрять инновации в этом направлении, предоставляя нашим пользователям искусственный интеллект, который может получать доступ к актуальной информации в Интернете, решать, как лучше представить эту информацию в различных формах, и теперь гораздо лучше рассуждать о логике, математике, физике и химии путем написания и выполнения кода.

Дополнительную информацию о YouAgent и You.com можно найти в разделе " Часто задаваемые вопросы".

Справочные материалы

[1] Ранее были опубликованы различные работы, например, LaMDA, описывающие использование инструмента, но до появления YouChat ни один потребительский продукт не был запущен с цитированием и постоянным доступом в Интернет. Дату запуска YouChat см. в нашем сообщении в Twitter.

[2] https://techcrunch.com/2023/02/15/you-com-takes-aim-at-google-and-microsoft-with-multimodal-chat-search/

[3] По умолчанию ChatGPT+ работает без интерпретатора кода, что требует изменения настроек. ChatGPT+ обладает наиболее схожей с YouAgent функциональностью за счет опции "Расширенный анализ данных". Однако она недоступна ни одной из компаний, использующих API GPT-3 или GPT-4.

Более умный ИИ-помощник: внедрение персонализации на You.com

You.com - это персональный помощник с искусственным интеллектом, который помогает вам добиваться большего каждый день. От написания текстов до кодирования, от создания и обучения до простого поиска в Интернете - You.com поможет вам достичь еще большего благодаря внедрению функции персонализации.

Читать далее "
Логотип YouImagine для искусственного интеллекта в you.com

Призыв ко всем начинающим художникам и писателям искусственного интеллекта: YouWrite и YouImagine теперь международные

YOU - это место, где творчество встречается с инновациями. Мы верим, что с помощью правильных инструментов каждый - не только художники и разработчики - может стать творцом. Именно поэтому мы предоставляем легкий доступ к новейшим технологиям искусственного интеллекта бесплатно и для всех желающих.

Читать далее "
логотип you.com в темном режиме

You.com только что обрел новый облик... темный режим теперь работает! 😎

Мы рады сообщить, что бета-версия темного режима, одной из наших самых востребованных функций, теперь работает на You.com! Мы также включили новый пользовательский интерфейс для фильтров поиска, а также добавили фильтры регионов и фильтры периодичности.

Читать далее "