Бенчмарк RAG решений ИИ сервисов

RRNCB
бенчмарк RAG-решений

RRNCB – Russian RAG Normative – Corporate Benchmark,
первый российский открытый бенчмарк для оценки RAG-решений при работе с нормативной,
правовой и технической документацией компаний

RRNCB. Схема RAG

Комплексная экспертиза RAG решений

Бенчмарк призван оценить компоненты RAG целиком, в едином пайплайне - начиная от извлечения данных и до финальной генерации ответа.
FractalGPT Logo

Оценивает RAG

RRNCB – это первый бенчмарк, который оценивает качество RAG решений как продуктов, а не просто тест LLM

FractalGPT Logo

Продуктовый

Адаптирован под специфику русскоязычных данных – корпоративных документов, кодексов, ГОСТов и СНИПов

FractalGPT Logo

Прозрачный

Объективный анализ качества работы компонентов RAG решений - от embeddings, поиска и до LLM

FractalGPT Logo

Открытый

Независимый лидерборд для оценки современных RAG решений. Возможность участвовать открыта

Запуск: 20 августа. Результаты: 20 сентября

rnncb_original_doc_support.png
Slider Arrow Icon
Arrow Right

Первый
продуктовый бенчмарк

На рынке десятки RAG-решений, но нет методики и инструмента оценки и сопоставления характеристик RAG сервисов, оценить их качество очень трудно. RRNCB – это первый бенчмарк, цель которого произвести комплексную оценку Retrieval augmented generation продуктов. 

  • Оценивает совместную работу embeddings, hybrid search, LLM

  • Комплексный подход при анализе всех компонентов, а не только LLM


Подробнее о важности бенчмарка в статье "RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems" RAGBench.

Make a report public or keep it private
Slider Arrow Icon
Arrow Right

Полезный
для индустрии

RRNCB призван упростить выбор RAG сервиса коммерческим, производственным компаниям. Бенчмарк адаптирован для работы со сложной документацией: корпоративными документами, кодексами, ГОСТами и СНИПами, СП, регламентами, финансовыми отчетами. 

  • Оценивает бизнес-решения, где точность ответов критична

  • Полезен при принятии решений о точности и полноте ответов GenAi

Print or export any report
Slider Arrow Icon
Arrow Right

Прозрачные
ML метрики

Сравнение проходит по ключевым метрикам (ROUGE, LLM-судья, скорость, качество уточняющих вопросов). В датасетах представлены: техническая документация, юридические кодексы, ГОСТы, СП, отчеты. 

  • Модальности: текст, таблицы

  • Разнообразные вопросы: от retrieval до навигационных, multi-hop

Почемустоит участвовать

Создание отраслевого бенчмарка позволит продолжить тренд на все большую потребность оценки потребительских характериск GenAi и выйти на уровень мировых бенчмарков - MERA, SuperGLUE, DRAGON, LMArena, RAGBench. Бенчмарк важен для Ai индустрии, поскольку он призван оценить бизнес-решения, в которых ошибка в ответах наиболее критична. Создание бенчмарка инициировано ИИ компанией Аватар Машина.

Изучить больше кейсов в блоге FractalAgents

ИИ-справочник

Независимый лидерборд

Полезный инструмент разработчика, для анализа и выбора оптимального RAG решения для задач: нормоконтроля, проверки документов, анализа рисков, извлечения информации.

Управление знаниями

Управляйте сабмитами

Свой аккаунт. Все активные сабмиты под рукой. Подробные результаты оценки по задачам. Фильтры по открытой и закрытой части.

Ai инженер

Открытая и закрытая часть

Запуск: 20 августа. Публикация результатов: 20 сентября. Возможность предоставить API тестирования вашего RAG решения.

Ai ученый-исследователь

Оценка фактологии

Возможность сравнить точность изложения фактов, извлеченных из документов, а также способность сервисов минимизировать "галлюцинации" в ответах.

ИИ-Юрист

Прозрачная методология

Определение лучших сервисов и LLM моделей в области обработки корп. документов. LLM-as-a-judge для прозрачной и сбалансированной оценки результатов генерации RAG.

ИИ-Аналитик

Для лидеров индустрии

Обработка строительной документации, аудит договоров, работа с резюме, поиск ошибок и расхождений. Принимайте обоснованые решения о внедрении RAG в бизнес на основе количественных метрик.

Партнеры & экспертный совет

Эксперты и лидеры ИТ индустрии, специалисты, помогающие в проведении бенчмарка.
Нина Адамова

Нина Адамова

АНО «Экспертно-координационный центр комиссий Государственного Совета Российской Федерации», зам. руководителя аппарата комиссии по направлению «Связь, коммуникации, цифровая экономика».

Андрей Богданов

Андрей Богданов

Директор Технопарка Физтех-лицея имени П.Л. Капицы, исполнительный директор Фонда развития Физтех-школ.

Артём Кострюков

Артём Кострюков

Генеральный директор Тест АйТи («Девелоника» FabricaONE.AI (акционер — ГК Softline). 15 лет в IT, от ML/CV до QA-платформы, стартап-энтузиаст, сертифицированный трекер и эксперт по маркетингу цифровых продуктов.

Евгений Борисов

Евгений Борисов

Директор по развитию Фонда развития интернет-инициатив (ФРИИ).

Вячеслав Береснёв

Вячеслав Береснёв

Исполнительный директор Ассоциации Лабораторий Разработки Искусственного Интеллекта (АЛРИИ), Директор ЦТИИ "Нейролаб", Федеральный эксперт АЦ Минобрнауки России.

Роберт Васильев

Роберт Васильев

Вице-президент АЛРИИ, CEO&Founder at z-union.ru, AI/ML/DL/СV.

Нина Адамова

Нина Адамова

АНО «Экспертно-координационный центр комиссий Государственного Совета Российской Федерации», зам. руководителя аппарата комиссии по направлению «Связь, коммуникации, цифровая экономика».

Андрей Богданов

Андрей Богданов

Директор Технопарка Физтех-лицея имени П.Л. Капицы, исполнительный директор Фонда развития Физтех-школ.

Артём Кострюков

Артём Кострюков

Генеральный директор Тест АйТи («Девелоника» FabricaONE.AI (акционер — ГК Softline). 15 лет в IT, от ML/CV до QA-платформы, стартап-энтузиаст, сертифицированный трекер и эксперт по маркетингу цифровых продуктов.

Евгений Борисов

Евгений Борисов

Директор по развитию Фонда развития интернет-инициатив (ФРИИ).

Вячеслав Береснёв

Вячеслав Береснёв

Исполнительный директор Ассоциации Лабораторий Разработки Искусственного Интеллекта (АЛРИИ), Директор ЦТИИ "Нейролаб", Федеральный эксперт АЦ Минобрнауки России.

Роберт Васильев

Роберт Васильев

Вице-президент АЛРИИ, CEO&Founder at z-union.ru, AI/ML/DL/СV.

Часто задаваемые вопросы

Участие

Партнерство