Решение IXIA для тестирования сетевой фабрики AI (RoCEv2)

Решение IXIA для тестирования сетевой фабрики AI (RoCEv2)

Основные возможности

  • Эмуляция реальной AI-нагрузки без использования больших кластеров GPU, снижение затрат на тестирование и подтверждение модели за счет использования высокоплотных устройств генерации трафика или программных конечных точек

    01
  • Доступ к библиотеке AI – обширному набору трасс выполнения AI-нагрузок, созданных в партнерстве с ведущими операторами AI и научными институтами

    02
  • Высокоплотная эмуляция AI-хостов с поддержкой сетей 800GE / 400GE для точного отображения поведения AI-кластеров

    03
  • Упрощение процесса эталонного тестирования, проверка производительности сетевой фабрики AI и улучшение ее использования

    04
  • Автоматизация тестирования сетевой фабрики AI для оценки влияния на время выполнения задач, изоляцию производительности, балансировку нагрузки и контроль перегрузок для оптимизации производительности обучения AI

    05
Как решение для тестирования сетевой фабрики AI помогает Juniper
Как решение для тестирования сетевой фабрики AI помогает Juniper
  • Решение тестирования сетевой фабрики AI помогает Juniper подтверждать соответствие сетевой инфраструктуры, эмулируя коллективные коммуникационные нагрузки от большого числа AI-ускорителей

  • Разнообразные сценарии тестирования для демонстрации эффективности и производительности сетевой фабрики без потерь в балансировке нагрузки и снижении перегрузок

Основные отраслевые тенденции и проблемы в отрасли AI / ML

  • ...

    К 2026 году общее число узлов в кластерах AI превысит 100 000

  • ...

    Время простоя процессоров в ожидании обмена данными доходит до 50%

  • ...

    Инновации в AI-сетях требуют новых инструментов измерения и эталонного тестирования

Основные отраслевые тенденции и проблемы в отрасли AI / ML

  • ...


    К 2026 году общее число узлов в кластерах AI превысит 100 000

  • ...


    Время простоя процессоров в ожидании обмена данными доходит до 50%

  • ...


    Инновации в AI-сетях требуют новых инструментов измерения и эталонного тестирования

Мы предлагаем решение для тестирования сетей 800GE / 400GE и подтверждения соответствия структуры сетевой фабрики без потерь, которое быстрее в развертывании, обеспечивает более глубокое понимание процессов по сравнению с существующими системами тестирования на GPU и гарантирует достоверность эмуляции AI-трафика.

Ускорение проектирования AI-сетей

Инновационный процесс определения будущей инфраструктуры AI / ML
тестирование на уровнях 2–7
  • Эталонное тестирование времени процесса коллективных коммуникаций AI

    Обнаружение проблем и сложностей при реальных нагрузках AI
  • Точность измерений производительности сети

    Принятие обоснованных проектных решений на основе более глубокого понимания AI-коммуникаций
  • Гибкие сценарии «что – если»

    Оптимизации коллективной производительности AI при помощи экспериментов с формами и видами AI-трафика и тонкой настройки конфигурации сетевой фабрики AI
  • Экономичные высокоплотные тестовые стенды для AI-сетей

    Масштабные эксперименты с эмуляцией трафика при помощи генераторов AresONE-M 800GE и AresONE-S 400GE
тестирование на уровнях 2–7

Реалистичные нагрузки при испытаниях AI-сетей

Эмуляция нагрузки AI позволяет наблюдать поведение AI-сетей при обучении без развертывания больших кластеров GPU и снижать затраты при сохранении реалистичности работы AI.
Основные преимущества эмуляции AI-нагрузки:
  • Эмуляция AI-нагрузок с использованием генераторов трафика AresONE на 400GE и 800GE или стандартных серверов COTS (Commercial Off The Shelf)
  • Подтверждение соответствия стратегий параллелизма, разбиения моделей на части и формы обмена данными в условиях реального трафика AI
  • Обеспечение соответствия инфраструктуры требованиям AI-нагрузок до перехода к полномасштабному развертыванию AI-сети
  • Снижение необходимости в предварительном развертывании дорогостоящих AI-кластеров для эталонного тестирования и тестирования производительности

Новый подход к эталонному тестированию
AI-инфраструктуры

Решение IXIA дает возможность инновационного эталонного тестирования AI-инфраструктуры
с высокой точностью и скоростью за счет:
  • Оптимизации дизайна AI / ML систем с помощью реалистичной эмуляции масштабных AI-нагрузок
  • Использования полученного понимания внутренних процессов для повышения производительности коллективных коммуникаций
  • Упрощения эталонного тестирования и подтверждения соответствия модели с помощью готовых методологий, поставляемых в виде приложений
  • Эмуляции конечных точек Remote Direct Memory Access (RDMA) через Converged Ethernet v2 (RoCEv2) с использованием высокоплотных устройств AresONE на 400GE или 800GE
  • Оптимизации дизайна AI / ML систем с помощью реалистичной эмуляции масштабных AI-нагрузок

  • Использования полученного понимания внутренних процессов для повышения производительности коллективных коммуникаций

  • Упрощения эталонного тестирования и подтверждения соответствия модели с помощью готовых методологий, поставляемых в виде приложений

  • Эмуляции конечных точек Remote Direct Memory Access (RDMA) через Converged Ethernet v2 (RoCEv2) с использованием высокоплотных устройств AresONE на 400GE или 800GE

Упрощение подтверждения модели AI-инфраструктуры с коллективным эталонным тестированием

Решение ускоряет и упрощает
  • Процесс подтверждения модели инфраструктуры AI, обеспечивая точность, масштабируемость и полезные инсайты
  • Оценку производительности AI с помощью приложения коллективного эталонного тестирования с методологиями и высокоточными устройствами тестирования
  • Оптимизацию дизайна сети AI и ее производительности

Основные возможности:

  • Оценка эффективности коллективных коммуникаций путем измерения времени выполнения задач и алгоритмов, полосы пропускания шин, а также отклонений от теоретического максимума производительности
  • Использование устройств генерации нагрузки AresONE для эмуляции конечных точек RoCEv2 с анализом производительности пар очередей (Queue Pair) потоков данных AI и возможностью глубокого и детального анализа
  • Подтверждение соответствия модели эмуляции RoCEv2 путем сравнения результатов тестирования с генераторами трафика AresONE и метрик реальных AI-систем
  • Интеграция коллективного эталонного тестирования в решение тестирования сетевой фабрики AI дает возможность операторам AI получать глубокое понимание эффективности перемещения данных, сетевых перегрузок и общей производительности системы

Основные возможности:

  • Оценка эффективности коллективных коммуникаций путем измерения времени выполнения задач и алгоритмов, полосы пропускания шин, а также отклонений от теоретического максимума производительности

  • Использование устройств генерации нагрузки AresONE для эмуляции конечных точек RoCEv2 с анализом производительности пар очередей (Queue Pair) потоков данных AI и возможностью глубокого и детального анализа

  • Подтверждение соответствия модели эмуляции RoCEv2 путем сравнения результатов тестирования с генераторами трафика AresONE и метрик реальных AI-систем

  • Интеграция коллективного эталонного тестирования в решение тестирования сетевой фабрики AI дает возможность операторам AI получать глубокое понимание эффективности перемещения данных, сетевых перегрузок и общей производительности системы

Эмуляция конечных точек RoCEv2 и эталонное тестирование с сохранением состояния (stateful)

Не только эмуляция, но и наивысшая точность в подтверждении соответствия модели для RoCEv2
  • Поддержка RoCEv2 IxNetwork / AresONE-S

    IxNetwork / AresONE-S поддерживает транспортный протокол RoCEv2 с контролем перегрузок DCQCN (Data Center Quantized Congestion Notification) и приоритетным управлением потоками PFC (Priority Flow Control). Это масштабируемое и экономичное решение для проверки эффективности управления трафиком в AI-кластерах, для оптимизации производительности сетевой фабрики.

  • Скорость и масштаб

    AresONE-S содержит до 16 портов 400GE на устройство и может объединяться в конфигурацию из нескольких устройств с более чем 256 портами в одном коллективе. Каждый порт эмулирует конечную точку RoCEv2 и поддерживает тысячи пар очередей с трафиком на скорости линии. Такой масштаб необходим для воспроизведения топологий реальных AI-кластеров.

  • Гибкость трафика

    Для соответствия реалистичности формы трафика AI-нагрузок и воспроизведения проблем реальной сети на меньших конфигурациях, возможности AresONE RoCEv2 охватывают широкий спектр форм трафика – от in-cast до частичной сетки (partial mesh) и до полносвязных соединений (all-to-all) коллективного трафика. На транспортном уровне поддерживаются последовательности команд RDMA с настраиваемыми размерами данных, скоростями всплесков трафика, интервалами в коллективной работе узлов – все это в сочетании с механизмами контроля скорости DCQCN и PFC.

  • Контроль перегрузок потока DCQCN на каждую пару очередей

    Контроль DCQCN на каждую пару очередей обеспечивает точный контроль сетевых перегрузок с такими функциями, как явное уведомление о перегрузке ECN (Explicit Congestion Notification), а также оптимизацию скорости потока данных и отзывчивости сетевой инфраструктуры на изменения потока и модели трафика.

  • Поддержка RoCEv2 IxNetwork / AresONE-S

    IxNetwork / AresONE-S поддерживает транспортный протокол RoCEv2 с контролем перегрузок DCQCN (Data Center Quantized Congestion Notification) и приоритетным управлением потоками PFC (Priority Flow Control). Это масштабируемое и экономичное решение для проверки эффективности управления трафиком в AI-кластерах, для оптимизации производительности сетевой фабрики.
  • Скорость и масштаб

    AresONE-S содержит до 16 портов 400GE на устройство и может объединяться в конфигурацию из нескольких устройств с более чем 256 портами в одном коллективе. Каждый порт эмулирует конечную точку RoCEv2 и поддерживает тысячи пар очередей с трафиком на скорости линии. Такой масштаб необходим для воспроизведения топологий реальных AI-кластеров.
  • Гибкость трафика

    Для соответствия реалистичности формы трафика AI-нагрузок и воспроизведения проблем реальной сети на меньших конфигурациях, возможности AresONE RoCEv2 охватывают широкий спектр форм трафика – от in-cast до частичной сетки (partial mesh) и до полносвязных соединений (all-to-all) коллективного трафика. На транспортном уровне поддерживаются последовательности команд RDMA с настраиваемыми размерами данных, скоростями всплесков трафика, интервалами в коллективной работе узлов – все это в сочетании с механизмами контроля скорости DCQCN и PFC.
  • Контроль перегрузок потока DCQCN на каждую пару очередей

    Контроль DCQCN на каждую пару очередей обеспечивает точный контроль сетевых перегрузок с такими функциями, как явное уведомление о перегрузке ECN (Explicit Congestion Notification), а также оптимизацию скорости потока данных и отзывчивости сетевой инфраструктуры на изменения потока и модели трафика.

Как тестировать AI-сети дата-центров

Эффективный дизайн сети критически важен для ускорения перемещения данных и снижения задержек. Методология тестирования AI-фабрики направлена на обеспечение последовательного процесса тестирования с измеримыми метриками для оптимизации инфраструктуры дата-центров под AI-нагрузки.
Black Book
Эталонное тестирование кластеров AI / ML с реалистичными нагрузками требует значительных инвестиций в вычислительные системы с GPU и сетевые интерфейсные контроллеры RDMA (NIC). Корректное эталонное тестирование включает настройку параметров, таких как конфигурация кластера, контроль перегрузок, алгоритмы нагрузки, размер данных задач, профиль трафика и производительность NIC.
Use case

Оборудование для тестирования AI

Модули нагрузки дата-центра IXIA обеспечивают высокую плотность и производительность тестовых решений Ethernet IP на скоростях 1G, 10G, 25G, 40G, 50G, 100G, 400G и 800G

Оборудование для тестирования AI

Модули нагрузки дата-центра IXIA обеспечивают высокую плотность и производительность тестовых решений Ethernet IP на скоростях 1G, 10G, 25G, 40G, 50G, 100G, 400G и 800G
Обеспечивает решения для тестирования QSFP-DD800 и QSFP800 на 2/4/8 портов
Обеспечивает решения для тестирования QSFP-DD c наивысшей в отрасли плотностью на 8 и 16 портов

Решение для тестирования сетевой фабрики AI
Демонстрация решения

РУТЕСТ

Почему стоит выбрать РУТЕСТ для тестирования
  • Комплексный подход

    Мы охватываем все аспекты тестирования, включая методологии, аренду решений и автоматизацию
  • Опыт и профессионализм

    Мы работаем с передовыми технологиями и знаем, как внедрить их в ваш бизнес
  • Экономия времени и ресурсов

    Наши услуги позволяют снизить затраты на тестирование, сохраняя высокое качество