Не позволяйте хранилищу стать ключевым узким местом в обучении моделей

Говорят, что технологические компании либо борются за графические процессоры, либо находятся на пути к их приобретению.В апреле генеральный директор Tesla Илон Маск приобрел 10 000 графических процессоров и заявил, что компания продолжит закупать большое количество графических процессоров у NVIDIA.На корпоративном уровне ИТ-персонал также прилагает все усилия, чтобы обеспечить постоянное использование графических процессоров для максимизации окупаемости инвестиций.Однако некоторые компании могут обнаружить, что по мере увеличения количества графических процессоров простои графических процессоров становятся более серьезными.

Если история и научила нас чему-то в отношении высокопроизводительных вычислений (HPC), так это тому, что хранилище и сеть не должны приноситься в жертву за счет слишком большого внимания к вычислениям.Если хранилище не может эффективно передавать данные вычислительным блокам, даже если у вас больше всего графических процессоров в мире, вы не добьетесь оптимальной эффективности.

По словам Майка Матчетта, аналитика Small World Big Data, модели меньшего размера могут выполняться в памяти (ОЗУ), что позволяет больше сосредоточиться на вычислениях.Однако более крупные модели, такие как ChatGPT с миллиардами узлов, не могут храниться в памяти из-за высокой стоимости.

«Вы не можете разместить миллиарды узлов в памяти, поэтому хранение становится еще более важным», — говорит Матчетт.К сожалению, хранение данных часто упускается из виду в процессе планирования.

В целом, независимо от варианта использования, в процессе обучения модели есть четыре общих момента:

1. Модельное обучение
2. Приложение для логического вывода
3. Хранение данных
4. Ускоренные вычисления

При создании и развертывании моделей большинство требований отдают приоритет быстрой проверке концепции (POC) или средам тестирования для запуска обучения модели, при этом потребности в хранении данных не рассматриваются в первую очередь.

Однако проблема заключается в том, что обучение или развертывание логических выводов может длиться месяцами или даже годами.В это время многие компании быстро увеличивают размеры своих моделей, и инфраструктура должна расширяться, чтобы соответствовать растущим моделям и наборам данных.

Исследования Google, посвященные миллионам учебных нагрузок машинного обучения, показывают, что в среднем 30 % времени обучения тратится на конвейер ввода данных.В то время как предыдущие исследования были сосредоточены на оптимизации графических процессоров для ускорения обучения, все еще остается много проблем с оптимизацией различных частей конвейера данных.Когда у вас есть значительная вычислительная мощность, реальным узким местом становится то, как быстро вы можете вводить данные в вычисления для получения результатов.

В частности, проблемы с хранением и управлением данными требуют планирования роста данных, что позволит вам постоянно извлекать ценность данных по мере вашего продвижения, особенно когда вы отваживаетесь на более сложные варианты использования, такие как глубокое обучение и нейронные сети, которые предъявляют более высокие требования к хранилища с точки зрения емкости, производительности и масштабируемости.

В частности:

Масштабируемость
Машинное обучение требует обработки огромных объемов данных, и по мере увеличения объема данных повышается точность моделей.Это означает, что компании должны ежедневно собирать и хранить больше данных.Когда хранилище невозможно масштабировать, рабочие нагрузки с интенсивным использованием данных создают узкие места, ограничивая производительность и приводя к дорогостоящему простою графического процессора.

Гибкость
Гибкая поддержка нескольких протоколов (включая NFS, SMB, HTTP, FTP, HDFS и S3) необходима для удовлетворения потребностей различных систем, а не для ограничения одним типом среды.

Задержка
Задержка ввода-вывода имеет решающее значение для построения и использования моделей, поскольку данные считываются и пересчитываются несколько раз.Уменьшение задержки ввода-вывода может сократить время обучения моделей на дни или месяцы.Ускорение разработки моделей напрямую приводит к большим преимуществам для бизнеса.

пропускная способность
Пропускная способность систем хранения имеет решающее значение для эффективного обучения модели.Процессы обучения включают большие объемы данных, обычно исчисляемые терабайтами в час.

Параллельный доступ
Для достижения высокой производительности обучающие модели разбивают действия на несколько параллельных задач.Часто это означает, что алгоритмы машинного обучения одновременно обращаются к одним и тем же файлам из нескольких процессов (возможно, на нескольких физических серверах).Система хранения должна обрабатывать одновременные запросы без ущерба для производительности.

Благодаря своим выдающимся возможностям с низкой задержкой, высокой пропускной способностью и крупномасштабным параллельным вводом-выводом Dell PowerScale является идеальным хранилищем, дополняющим вычисления с ускорением на GPU.PowerScale эффективно сокращает время, необходимое для моделей анализа, которые обучают и тестируют многотерабайтные наборы данных.В хранилище PowerScale all-flash пропускная способность увеличивается в 18 раз, устраняя узкие места ввода-вывода, и может быть добавлена ​​к существующим кластерам Isilon для ускорения и раскрытия ценности больших объемов неструктурированных данных.

Кроме того, возможности многопротокольного доступа PowerScale обеспечивают неограниченную гибкость для выполнения рабочих нагрузок, позволяя хранить данные с использованием одного протокола и получать к ним доступ с помощью другого.В частности, мощные функции, гибкость, масштабируемость и функциональность корпоративного уровня платформы PowerScale помогают решать следующие задачи:

- Ускорить внедрение инноваций до 2,7 раз, сократив цикл обучения модели.

- Устраните узкие места ввода-вывода и обеспечьте более быстрое обучение и проверку моделей, повышенную точность моделей, повышенную производительность обработки данных и максимальную отдачу от инвестиций в вычисления за счет использования функций корпоративного уровня, высокой производительности, параллелизма и масштабируемости.Повысьте точность модели с помощью более глубоких наборов данных с более высоким разрешением, используя до 119 ПБ эффективной емкости хранилища в одном кластере.

- Обеспечьте масштабное развертывание, начав с малого и независимо масштабируя вычислительные ресурсы и хранилище, обеспечивая надежную защиту данных и параметры безопасности.

- Повысьте производительность обработки данных с помощью аналитики на месте и предварительно проверенных решений для более быстрого развертывания с низким уровнем риска.

- Использование проверенных решений на основе лучших в своем классе технологий, включая ускорение графического процессора NVIDIA и эталонные архитектуры с системами NVIDIA DGX.Высокая производительность и параллелизм PowerScale соответствуют требованиям к производительности хранилища на каждом этапе машинного обучения, от сбора и подготовки данных до обучения моделей и вывода.Вместе с операционной системой OneFS все узлы могут беспрепятственно работать в одном и том же кластере, управляемом OneFS, с функциями уровня предприятия, такими как управление производительностью, управление данными, безопасность и защита данных, что позволяет быстрее завершить обучение и проверку модели для бизнеса.


Время публикации: 03 июля 2023 г.