Не позволяйте хранилищу стать ключевым узким местом в обучении модели

Говорят, что технологические компании либо борются за графические процессоры, либо находятся на пути к их приобретению. В апреле генеральный директор Tesla Илон Маск приобрел 10 000 графических процессоров и заявил, что компания продолжит закупать большое количество графических процессоров у NVIDIA. Что касается предприятий, ИТ-персонал также прилагает все усилия, чтобы обеспечить постоянное использование графических процессоров для максимизации рентабельности инвестиций. Однако некоторые компании могут обнаружить, что по мере увеличения количества графических процессоров простоя графических процессоров становится более серьезным.

Если история научила нас чему-нибудь о высокопроизводительных вычислениях (HPC), так это тому, что хранилищем и сетями нельзя жертвовать ради слишком большого внимания к вычислениям. Если хранилище не может эффективно передавать данные в вычислительные блоки, даже если у вас больше всего графических процессоров в мире, вы не достигнете оптимальной эффективности.

По словам Майка Матчетта, аналитика Small World Big Data, модели меньшего размера могут выполняться в памяти (ОЗУ), что позволяет больше сосредоточиться на вычислениях. Однако более крупные модели, такие как ChatGPT, с миллиардами узлов, не могут храниться в памяти из-за высокой стоимости.

«В памяти невозможно разместить миллиарды узлов, поэтому хранение становится еще более важным», — говорит Матчетт. К сожалению, хранение данных часто упускается из виду в процессе планирования.

В целом, независимо от варианта использования, в процессе обучения модели есть четыре общих момента:

1. Модельное обучение
2. Приложение вывода
3. Хранение данных
4. Ускоренные вычисления

При создании и развертывании моделей большинство требований отдают приоритет быстрой проверке концепции (POC) или средам тестирования для начала обучения модели, при этом потребностям хранения данных не уделяется первоочередного внимания.

Однако проблема заключается в том, что обучение или развертывание логических выводов может длиться месяцами или даже годами. В это время многие компании быстро увеличивают размеры своих моделей, и инфраструктура должна расширяться, чтобы приспособиться к растущим моделям и наборам данных.

Исследования Google, посвященные миллионам рабочих нагрузок обучения ML, показывают, что в среднем 30% времени обучения тратится на конвейер входных данных. Хотя предыдущие исследования были сосредоточены на оптимизации графических процессоров для ускорения обучения, многие проблемы по-прежнему остаются в оптимизации различных частей конвейера данных. Когда у вас есть значительная вычислительная мощность, настоящим узким местом становится то, насколько быстро вы можете вводить данные в вычисления для получения результатов.

В частности, проблемы хранения и управления данными требуют планирования роста данных, что позволит вам постоянно извлекать ценность данных по мере продвижения, особенно когда вы решаетесь на более сложные варианты использования, такие как глубокое обучение и нейронные сети, которые предъявляют более высокие требования к хранилища с точки зрения емкости, производительности и масштабируемости.

В частности:

Масштабируемость
Машинное обучение требует обработки огромных объемов данных, и по мере увеличения объема данных точность моделей также повышается. Это означает, что предприятия должны собирать и хранить больше данных каждый день. Когда хранилище невозможно масштабировать, рабочие нагрузки с интенсивным использованием данных создают узкие места, ограничивая производительность и приводя к дорогостоящему простою графического процессора.

Гибкость
Гибкая поддержка нескольких протоколов (включая NFS, SMB, HTTP, FTP, HDFS и S3) необходима для удовлетворения потребностей различных систем, а не ограничивается одним типом среды.

Задержка
Задержка ввода-вывода имеет решающее значение для построения и использования моделей, поскольку данные считываются и перечитываются несколько раз. Уменьшение задержки ввода-вывода может сократить время обучения моделей на дни или месяцы. Более быстрая разработка моделей напрямую приводит к увеличению бизнес-преимуществ.

Пропускная способность
Пропускная способность систем хранения имеет решающее значение для эффективного обучения модели. Процессы обучения включают большие объемы данных, обычно исчисляемые терабайтами в час.

Параллельный доступ
Для достижения высокой производительности модели обучения разбивают действия на несколько параллельных задач. Это часто означает, что алгоритмы машинного обучения получают доступ к одним и тем же файлам из нескольких процессов (возможно, на нескольких физических серверах) одновременно. Система хранения должна обрабатывать параллельные запросы без ущерба для производительности.

Благодаря выдающимся возможностям низкой задержки, высокой пропускной способности и крупномасштабному параллельному вводу-выводу Dell PowerScale является идеальным дополнением системы хранения данных к вычислениям с графическим ускорением. PowerScale эффективно сокращает время, необходимое для моделей анализа, которые обучают и тестируют наборы данных объемом в несколько терабайт. В флэш-хранилище PowerScale пропускная способность увеличивается в 18 раз, устраняя узкие места ввода-вывода, и его можно добавлять к существующим кластерам Isilon для ускорения и раскрытия ценности больших объемов неструктурированных данных.

Более того, возможности многопротокольного доступа PowerScale обеспечивают неограниченную гибкость при выполнении рабочих нагрузок, позволяя хранить данные с использованием одного протокола и получать доступ к ним с использованием другого. В частности, мощные функции, гибкость, масштабируемость и функциональность корпоративного уровня платформы PowerScale помогают решить следующие проблемы:

- Ускорьте внедрение инноваций до 2,7 раз, сократив цикл обучения модели.

- Устраните узкие места ввода-вывода и обеспечьте более быстрое обучение и проверку моделей, повышенную точность моделей, повышенную продуктивность обработки данных и максимальную отдачу от инвестиций в вычисления за счет использования функций корпоративного уровня, высокой производительности, параллелизма и масштабируемости. Повысьте точность модели с помощью более глубоких наборов данных с более высоким разрешением, используя до 119 ПБ эффективной емкости хранилища в одном кластере.

- Обеспечьте масштабное развертывание, начав с небольших и независимо масштабируемых вычислительных ресурсов и хранилищ, обеспечивая надежную защиту данных и возможности безопасности.

- Повысьте производительность обработки данных с помощью аналитики на месте и предварительно проверенных решений для более быстрого развертывания с низким уровнем риска.

- Использование проверенных разработок, основанных на лучших в своем классе технологиях, включая ускорение графического процессора NVIDIA и эталонные архитектуры с системами NVIDIA DGX. Высокая производительность и параллелизм PowerScale соответствуют требованиям к производительности хранилища на каждом этапе машинного обучения: от сбора и подготовки данных до обучения моделей и получения логических выводов. Вместе с операционной системой OneFS все узлы могут беспрепятственно работать в одном кластере под управлением OneFS с такими функциями корпоративного уровня, как управление производительностью, управление данными, безопасность и защита данных, что позволяет быстрее завершить обучение и проверку модели для предприятий.


Время публикации: 03 июля 2023 г.