Производительность систем хранения данных с дисковыми массивами при подключении к одному хосту

В общем, диски или дисковые массивы имеют наилучшую производительность в сценарии подключения к одному хосту. Большинство операционных систем основаны на эксклюзивных файловых системах, что означает, что файловая система может принадлежать только одной операционной системе. В результате и операционная система, и прикладное программное обеспечение оптимизируют чтение и запись данных для дисковой системы хранения на основе ее характеристик. Эта оптимизация направлена ​​на сокращение времени физического поиска и уменьшения времени механического отклика диска. Запросы данных от каждого программного процесса обрабатываются операционной системой, что приводит к оптимизированным и упорядоченным запросам на чтение и запись данных на диск или дисковый массив. Это приводит к наилучшей производительности системы хранения данных в данной настройке.

Для дисковых массивов, хотя между операционной системой и отдельными дисками добавляется дополнительный RAID-контроллер, текущие RAID-контроллеры в первую очередь управляют и проверяют операции отказоустойчивости диска. Они не выполняют объединение, переупорядочение или оптимизацию запросов данных. RAID-контроллеры разработаны на основе предположения, что запросы данных поступают с одного хоста, уже оптимизированные и отсортированные операционной системой. Кэш контроллера обеспечивает только возможности прямой и вычислительной буферизации без постановки данных в очередь для оптимизации. При быстром заполнении кэша скорость сразу снижается до фактической скорости дисковых операций.

Основная функция RAID-контроллера — создать один или несколько больших отказоустойчивых дисков из нескольких дисков и повысить общую скорость чтения и записи данных с помощью функции кэширования на каждом диске. Кэш чтения RAID-контроллеров значительно повышает производительность чтения дискового массива, когда одни и те же данные считываются за короткое время. Фактическая максимальная скорость чтения и записи всего дискового массива ограничена наименьшим значением среди пропускной способности канала хоста, проверочных вычислений ЦП контроллера и возможностей управления системой (RAID-механизм), пропускной способности дискового канала и производительности диска (совокупная фактическая производительность все диски). Кроме того, несоответствие между основой оптимизации запросов данных операционной системы и форматом RAID, например размер блока запросов ввода-вывода, не соответствующий размеру сегмента RAID, может существенно повлиять на производительность дискового массива.

Изменения производительности традиционных систем хранения данных с дисковыми массивами при множественном доступе

В сценариях доступа к нескольким хостам производительность дисковых массивов снижается по сравнению с подключениями к одному хосту. В небольших системах хранения данных с дисковыми массивами, которые обычно имеют одну или резервированную пару контроллеров дисковых массивов и ограниченное количество подключенных дисков, на производительность влияют неупорядоченные потоки данных от различных хостов. Это приводит к увеличению времени поиска на диске, заголовку и хвостовой информации сегмента данных, а также фрагментации данных для процессов чтения, слияния, проверки и перезаписи. Следовательно, производительность хранилища снижается по мере подключения большего количества хостов.

В крупномасштабных системах хранения данных с дисковыми массивами снижение производительности отличается от снижения производительности в небольших дисковых массивах. Эти крупномасштабные системы используют шинную структуру или структуру перекрестной коммутации для подключения нескольких подсистем хранения (дисковых массивов) и включают в себя кэши большой емкости и модули подключения хостов (аналогичные концентраторам каналов или коммутаторам) для большего количества хостов на шине или коммутаторе. структура. Производительность во многом зависит от кэша в приложениях обработки транзакций, но ее эффективность в сценариях с мультимедийными данными ограничена. Хотя внутренние подсистемы дисковых массивов в этих крупномасштабных системах работают относительно независимо, единственное логическое устройство создается только внутри одной дисковой подсистемы. Таким образом, производительность отдельного логического устройства остается низкой.

В заключение отметим, что у небольших дисковых массивов производительность снижается из-за неупорядоченных потоков данных, тогда как крупномасштабные дисковые массивы с несколькими независимыми подсистемами дисковых массивов могут поддерживать больше хостов, но по-прежнему сталкиваются с ограничениями для приложений с мультимедийными данными. С другой стороны, системы хранения данных NAS, основанные на традиционной технологии RAID и использующие протоколы NFS и CIFS для совместного использования хранилища с внешними пользователями через соединения Ethernet, испытывают меньшее снижение производительности в средах доступа с несколькими хостами. Системы хранения данных NAS оптимизируют передачу данных с помощью нескольких параллельных передач TCP/IP, обеспечивая максимальную общую скорость около 60 МБ/с в одной системе хранения NAS. Использование соединений Ethernet позволяет оптимально записывать данные на дисковую систему после управления и переупорядочения операционной системой или программным обеспечением управления данными на тонком сервере. Таким образом, сама дисковая система не испытывает значительного снижения производительности, что делает хранилище NAS подходящим для приложений, требующих совместного использования данных.


Время публикации: 17 июля 2023 г.