Выпускаемые сегодня внешние дисковые массивы делятся на три класса — старший (high-end), средний (mid-range) и массивы начального уровня (entry-level). Большинство массивов старшего класса — это так называемые монолитные системы, т. е. даже в начальной конфигурации такой массив занимает отдельный 19-дюйм шкаф, и хотя внутри этот шкаф может быть заполнен компонентами массива только наполовину, в него нельзя установить дополнительное оборудование, например, стоечные серверы и блейд-системы.

Массивы среднего класса и начального уровня построены по модульному принципу. Как правило, они состоят из смонтированных в одну 19-дюйм стойку одного или двух управляющих модулей (контроллеров массива), к которым подсоединяются дисковые полки, установленные в той же стойке. Модульность позволяет уменьшить расходы на первоначальную конфигурацию массива, экономит место в ЦОДе, поскольку в этой же стойке можно разместить другое оборудование (серверы, ленточную библиотеку, коммутаторы) и позволяет постепенно наращивать емкость массива установкой в стойку дополнительных дисковых полок.

Если массивы entry-level обычно поддерживают не более 120 жестких дисков и рассчитаны на обслуживание нескольких серверов стандартной архитектуры (они часто применяются для построения отказоустойчивых двухузловых кластеров), то массивы mid-range масштабируются свыше 500, а некоторые модели — до двух и даже трех 19-дюйм полок и до 1 тыс. жестких дисков, и способны обеспечить централизованное хранение данных в достаточно крупном ЦОДе, где работает более 10 серверов, в том числе, — и многопроцессорные Unix-серверы. В то же время в отличие от массивов high-end большинство массивов среднего класса не поддерживают серверы с «закрытой» архитектурой (мэйнфреймы, IBM AS/400, HP OpenVMS и HP NonStop). Поскольку в штучном выражении на долю закрытых платформ приходится небольшая часть серверного рынка, то разработчикам дисковых массивов среднего класса не имеет смысла вкладывать деньги в реализацию поддержки этих «экзотических» ОС в своих продуктах.

Еще одно, и даже более важное отличие массивов среднего класса от высшего — это число контроллеров. В классических массивах среднего класса поддерживается только два контроллера. Хотя уже появились массивы этого класса, которые масштабируются свыше двух контроллеров, по этому показателю, от которого зависит общая производительность и отказоустойчивость дискового массива, они сильно отстают от систем high-end.

Классическая функциональность массивов среднего класса

Практически все системы среднего класса реализуют наиболее популярные варианты объединения дисков в RAID-массив, а именно — RAID пятого и шестого уровней, обеспечивающие распараллеливание операций ввода/вывода дисков в сочетании с защитой от потери данных из-за сбоя одного или двух дисков массива. В дисковых массивах компании NetApp на основе фирменной файловой системы реализованы RAID-4 и RAID DP, похожий на шестой RAID.

Все массивы среднего класса поддерживают наиболее распространенные серверные операционные системы — Windows, Linux и коммерческий Unix (прежде всего Solaris), поэтому их можно использовать для консолидированного хранения данных в ЦОДах, где применяются серверы разной архитектуры (за исключением серверов на базе закрытых архитектур).

Практически стандартной для массивов этого класса стала функция мгновенных снимков (snapshots), с помощью которых удобно, не прерывая основные операции массива, производить резервное копирование или делать копии больших объемов продукционных данных для углубленного анализа или тестирования новых версий приложений.

Для защиты данных от потери из-за крупных аварий в массивах среднего класса традиционно применяется удаленная репликация на такую же модель массива, установленную на отдельной площадке.

Новые задачи — новый функционал

Последние два-три года отмечены быстрым ростом продаж дисковых массивов среднего класса, который не смог остановить даже спад мировой экономики. Например, по оценкам Gartner, в середине 2010 г. продажи этих систем хранения выросли почти на 10% по сравнению с уровнем лета 2009 г.

Помимо непрерывного роста объемов данных корпоративных приложений, которые хранятся на дисковых массивов, увеличению спроса на системы среднего класса способствовало также внедрение серверной виртуализации, для которой, как правило, требуется дисковый массив не только большой емкости, но и с высокой производительностью ввода/вывода, надежностью и гибкостью конфигурации. Второй новый фактор роста спроса на дисковые массивы среднего класса — это применение резервного копирования на жесткие диски вместо значительно более медленного традиционного резервного копирования на магнитные ленты.

Из технологических новинок последних лет прежде всего стоит отметить концепцию Unified Storage, впервые предложенную NetApp и затем взятую на вооружение другими вендорами. Если раньше все системы хранения четко делились по способу подключения к сети на системы для сетей хранения SAN, использующие блочный доступ к данным и интерфейс Fibre Channel, и NAS-системы, подключающиеся к локальной сети Ethernet и предназначенные для хранения файлов, то системы Unified Storage способны работать и в составе SAN, и как NAS-система. В результате на одной системе можно хранить как данные корпоративных приложений, которые используют блочный доступ (например, базу данных ERP-системы), так и файлы пользователей. В результате такой консолидации экономятся затраты на приобретение систем хранения и их обслуживание.

Дополнительным стимулом для реализации Unified Storage на практике становится внедрение 10-Гб Ethernet с применением технологий Fibre Channel over Ethernet, что позволит использовать сеть Ethernet и как традиционную LAN, и как сеть SAN, т. е. отказаться от использования выделенной сети хранения и консолидировать с помощью 10 Gigabit Ethernet всю сетевую инфраструктуру предприятия. Кроме того, переход на 10-Гб Ethernet открывает новые перспективы для построения SAN на базе iSCSI и применения таких систем хранения iSCSI, как Dell EqualLogic и HP StorageWorks P4000 (продукт бывшей компании LeftHand), потому что до сих пор внедрение iSCSI на базе 1-гигабитного Ethernet не обеспечивало ту скорость доступа к данным на системе хранения, который реализуют классические SAN на Fibre Channel.

Fibre Channel вытесняется новыми, более доступными по цене и стандартизированными технологиями не только на уровне сети, но и на уровне внутренней архитектуры массивов. Почти все представленные за последние полгода новые дисковые массивы среднего класса построены на базе технологии Serial Attached SCSI (SAS), которая существенно упрощает проектирование новых систем по сравнению с использованием Fibre Channel, позволяет применять стандартные компоненты и устанавливать в массивах более дешевые диски SATA большой емкости. Еще одно новшество дисковых массивов среднего класса — это поддержка 2,5-дюйм жестких дисков в дополнение к классическим 3,5-дюйм, которые увеличивают плотность размещения емкости и улучшают возможности распараллеливания ввода/вывода в дисковом массиве.

Твердотельные диски (SSD) практически уже стали стандартным компонентом современных дисковых массивов. Несмотря на значительно более высокие по сравнению с жесткими дисками цены эти накопители позволяют существенно улучшить «скорострельность» дискового массива и очень эффективны для хранения тех данных, к которым чаще всего осуществляются запросы, например, в транзакционных приложениях. По производительности ввода/вывода данных один диск SSD может заменить целую полку скоростных жестких дисков SAS, что не только оправдывает его более высокую стоимость, но и существенно уменьшает место, необходимое для дискового массива, и его энергопотребление.

Комбинирование твердотельных дисков со скоростными жесткими дисками SAS и более медленными SATA-дисками большой емкости позволяет внутри одного массива организовать несколько уровней хранения данных с разными показателями скорости доступа и стоимости хранения одного гигабайта. Для максимальной эффективности многоуровневого хранения требуются механизмы автоматического перемещения данных по определенным правилам между разными уровнями хранения, например, чтобы без участия системного администратора сам дисковый массив переводил данные, к которым стало меньше запросов или они устарели, с твердотельных дисков на более медленные жесткие диски SAS, а затем — и на SATA-диски.

Сокращение расходов на хранение одного гигабайта данных обеспечивает также и применение в некоторых массивах технологий дедубликации и онлайнового сжатия.

Функция thin provisioning помогает сократить первоначальные расходы на закупку систем хранения. Дело в том, что при традиционном подходе дисковые массивы закупаются с большим запасом по емкости в расчете на рост объемов данных в будущем. Поэтому часть дисков массива крутится вхолостую несколько месяцев до того, как на эти диски были записаны первые данные. Для покупателей было бы выгодней покупать массив в той конфигурации, которая соответствует текущим объемам данных, и потом постепенно, по мере роста данных, докупать и устанавливать дополнительные диски, однако тогда при каждом расширении емкости массива придется останавливать приложения, чьи данные хранятся на массиве, и заново выделять им емкость. Такие операции, если они выполняются достаточно часто, создают существенную нагрузку на системного администратора и негативно влияют на степени доступности важных для бизнеса приложений.

Дополнительной к thin provisioning является функция thin reclamation, т. е. возврата в виртуальный пул той части емкости виртуального тома, которая оказалась ненужной приложению (например, из-за завышенного прогноза роста данных или при удалении больших объемов данных приложения). Для thin reclamation, которая также впервые была реализована в массивах 3Par, требуется, чтобы система хранения узнала, что приложению не нужна какая-то емкость. Этот механизм взаимодействия с использующим thin provisioning дисковым массивом уже реализован в файловой системе Symantec VxFS и СУБД Oracle.

Для сокращения энергопотребления и тепловыделения дисковых массивов ряд вендоров реализовали в своих системах функцию spin-down, которая временно останавливает те диски, к которым в последнее время не было обращений. Прежде всего эта функция применяется к SATA-дискам, на которых обычно хранятся редкозапрашиваемые данные.

Среди новых функций, обеспечивающих дополнительную защиту от аппаратных сбоев, стоит отметить применяемую некоторыми вендорами (например, HDS) архитектуру контроллеров active-active с балансировкой нагрузки между двумя контроллерами массива, и реализованную (например, в массивах 3Par) функцию удаленной репликации между тремя площадками для обеспечения поддержания доступа к данным в случае катастроф. Иногда применяется многоузловая конфигурация контроллеров, что позволяет минимизировать падение производительности при выходе из строя одного из контроллеров.

При разработке новых дисковых массивов сегодня большинство вендоров ориентируются на применение компонентов, выпускаемых для серверов стандартной архитектуры, например, процессоров Intel Xeon. Эта стандартизация позволяет избавиться от больших затрат, связанных с разработкой и производством специализированных ASIC и сосредоточиться на программно-реализуемом функционале, который в будущем можно будет перенести на новые процессоры Intel.

Мы описали наиболее типичные подходы, с помощью которых реализуются основные функции современных СХД среднего класса. Вместе с тем в отдельных моделях используются свои фирменные подходы, ознакомиться с которыми по технической документации.

Полная электронная версия этой статьи доступна только для подписчиков. Для получения полной электронной версии статьи сейчас Вы можете оформить запрос.