Решение HiDC для построения современной ИКТ-инфраструктуры ЦОД на основе оборудования Huawei Enterprise

Окинув взглядом с высоты птичьего полёта все современные решения Huawei Enterprise, представленные в 2020 году, мы переходим к более точечным и детальным рассказам об отдельных идеях и продуктах, которые способны послужить основой цифровой трансформации как крупных предприятий, так и государственных структур. Сегодня — о том, на базе каких концепций и технологий Huawei предлагает строить ЦОДы.

В эру «подключённого мира» задачи хранения и обработки данных требуют новых подходов на всех этапах жизненного цикла ЦОДов. Они должны одновременно стать и проще и «умнее», для того чтобы справиться с возложенной на них ролью центральных элементов инфраструктуры мировой цифровой экономики.

В 2018 году человечество хранило 33 зеттабайта информации, но уже к 2025 году её суммарный объём должен вырасти более чем в пять раз. Три десятилетия опыта в разработке ИКТ-инфраструктур позволили Huawei хорошо подготовиться к набирающему силу «цунами данных» и предложить своим партнёрам и заказчикам концепцию интеллектуального ЦОДа, включающую все этапы его строительства, эксплуатации и техобслуживания. Элементы этой концепции объединены под общим названием HiDC.

Цифровизируй это

По Сети гуляет свежий анекдот: кто больше всех ускорил цифровую трансформацию вашей компании — CEO, CTO, совет директоров? Эпидемия коронавируса! Только ленивый не проводит вебинары, не пишет статьи, не рассказывает, как и что делать. Но всё это реактивные действия. Некоторые готовились заранее.

Не ради бахвальства — по объективным причинам в качестве примера приведём нашу компанию, в которой цифровая трансформация была масштабно инициирована несколько лет назад. На текущий момент практически всех сотрудников мы в состоянии перевести на работу из дома без какой-либо потери эффективности. Показательна история с больницей, построенной в городе Ухань за десять дней. Там цифровая трансформация проявила себя в том, что все IT-системы были развёрнуты за трое суток. Так что цифровая трансформация — это не про «когда» и «зачем», а про «как».

Архитектурный подход вместо стихийного развития

Какие основные проблемы встают перед нами, когда мы начинаем строить некую систему? До сих пор все наши заказчики работают в режиме совмещения бизнес-задач с прикладными сервисами и IT-решениями. Достаточно сложно получить общее представление о функционировании такого комплекса, если его создавали просто путём добавления различных блоков. А для того чтобы строить систему как единый организм, прежде всего необходим архитектурный подход. Его-то мы и воплотили в идеологии нашего решения HiDC.

Максимум ценности и минимум стоимости

Вся структура HiDC — это два основных среза. Первый представляет собой то, что вы привыкли видеть у Huawei, — классическую инфраструктуру. Элементы второго среза проще всего объединить термином «интеллектуальные данные».

Зачем это нужно? В наши дни многие компании накапливают колоссальные объёмы информации, зачастую разрозненной или доступной через разного рода «прокладки». Да взять хотя бы обычные базы данных. Спросите у своих администраторов БД, насколько эти базы состыкованы между собой и как использовать сведения из них в BI-системах для принятия бизнес-решений. Удивительное дело, зачастую БД очень слабо связаны друг с другом и функционируют как отдельные «островки». Поэтому в первую очередь мы задумались над тем, какими архитектурными подходами могла бы быть устранена эта проблема.

Принципы проектирования архитектуры HiDC

Рассмотрим основные принципы проектирования HiDC. Это в первую очередь будет полезно не специалистам какого-то конкретного направления, а архитекторам решений, которые могут охватить взглядом всю панораму.

Самыми распространенными являются блок конвергентных сетей и блок управления данными. И уже здесь возникает понятие, о котором редко задумываются архитекторы решений, — управление жизненным циклом данных. Из классических баз данных он перекочевал во множество других систем, в том числе в облачные и граничные (edge) вычисления.

Граничных вычислений становится всё больше. Самый наглядный пример их применения — автомобиль с автопилотом, которым желательно управлять с единой платформы. Кроме того, налицо тренд на «зелёные» технологии — более энергоэффективные, наносящие минимальный ущерб окружающей среде. Добиться и того и другого можно с помощью перехода на интеллектуальные ресурсы (о них — дальше).

Замечательно, когда в нашем распоряжении все шесть блоков структуры HiDC. Правда, зачастую заказчики работают в созданной ранее среде. Однако использование даже одного блока со схемы выше способно принести плоды. А если добавить второй, третий и так далее, начнёт проявляться синергетический эффект. Одно только сочетание сети и распределённой системы хранения данных даст более высокую производительность и более низкие задержки. Блочный подход позволяет нам развиваться не хаотично, как зачастую происходит в индустрии, а используя комплексный архитектурный подход. Ну а открытость самих блоков предоставляет свободу в выборе оптимального решения.

Время конвергентных сетей

В последнее время на мировом и российском рынках мы всё более рьяно продвигаем концепцию конвергентных сетей. Уже сегодня наши заказчики используют конвергентные решения на RoCEv2 (RDMA over Converged Ethernet v2) для построения распределённых программно определяемых систем хранения данных. Главный плюс такого подхода — в его открытости и отсутствии необходимости создавать неопределённое количество разрозненных сетей.

Почему так не делали раньше? Напомним, стандарт Ethernet был разработан в 1969 году. За полвека в нём накопилось множество проблем, но в Huawei научились их решать. Теперь благодаря ряду дополнительных действий мы можем использовать Ethernet для критически важных приложений, высоконагруженных решений и т. д.

От DCN к DCI

Следующий важный тренд — синергетический эффект от внедрения DCI (Data Center Interconnect). В России, в отличие от Китая, нечто подобное пока можно встретить только у операторов связи. Когда заказчики рассматривают сетевые решения для ЦОДа, обычно они не уделяют должного внимания глубокой интеграции оптических сетей и классических IP-решений в пределах одной точки присутствия. Они используют привычные решения, которые работают на IP-слое, чего им хватает.

Для чего тогда нужен DCI? Представьте, что администратор DWDM-узла и администратор сети действуют независимо. В какой-то момент сбой, возникший у любого из них, может серьёзно понизить вашу отказоустойчивость. А если мы используем принцип синергии, IP-маршрутизация осуществляется с учётом того, что происходит на оптической сети. Использование такого интеллектуального сервиса заметно увеличивает количество девяток в уровне доступности всей системы.

Ещё одним серьёзным преимуществом нашего DCI является большой запас по производительности. Суммируя возможности диапазонов C и L, можно получить порядка 220 лямбд. Такой запас вряд ли будет быстро исчерпан даже крупным корпоративным заказчиком, если учесть, что наше текущее решение позволяет передавать через каждую лямбду до 400 Гбит/с. В дальнейшем на том же оборудовании можно будет достичь 800 Гбит/с.

Дополнительное удобство обеспечивается общей управляемостью, которую мы предоставляем через классически открытые интерфейсы. Посредством NETCONF осуществляется управление не только коммутаторами, но и устройствами оптического уплотнения, что позволяет достичь конвергенции на всех уровнях и воспринимать систему именно как интеллектуальный ресурс, а не «набор коробок».

Граничные вычисления всё важнее

Многие наслышаны об Edge Computing. И тем, кто занимается облачными и классическими ЦОДами, следует иметь в виду, что мы в последнее время наблюдаем серьёзный сдвиг именно в сторону граничных вычислений.

Чем это вызвано? Давайте посмотрим на общие модели внедрений. Сейчас немало говорят об «умных городах», «умных домах» и т. п. Эта концепция позволяет застройщику создать добавленную стоимость и повысить цену объекта недвижимости. «Умный дом» опознаёт своего жителя, впускает и выпускает его, предоставляет ему некие сервисы. Согласно статистике, такие сервисы добавляют к цене апартаментов порядка 10–15% и в целом способны подтолкнуть развитие новых бизнес-моделей. Также ранее уже было сказано о концептах автопилотов. Вскорости развитие технологий 5G и Wi-Fi 6 позволит обеспечить крайне низкую задержку при передаче данных между производящими граничные вычисления «умными» домами, автомобилями и главным ЦОДом. А значит, станет возможным выполнение гораздо большего числа операций, связанных с серьёзной обработкой данных. Для решения таких задач, в частности, можно использовать и нейронные процессоры, которые уже поставляются в Россию.

Перспективность обрисованного только что тренда несомненна. Вообразим, допустим, интеллектуальную систему управления городским транспортом, способную переключать светофоры, регулировать транспортную нагрузку на конкретных улицах или даже принимать адекватные меры во время чрезвычайных ситуаций.

Теперь обратимся к ресурсам, которыми мы обеспечиваем реализацию концепции HiDC.

Вычисления

Когда нам нужно реализовать стандартную вычислительную систему, применение в ней, конечно же, находят процессоры с архитектурой x86. Но как только возникает необходимость кастомизации, впору задуматься о более разнообразных решениях.

Так, к примеру, процессоры ARM в силу большого количества ядер отлично подходят для приложений с высокой степенью параллелизма. Многопоточность даёт выигрыш в производительности порядка 30%.

Если нам критически важны низкие задержки, на передний план выходят программируемые логические интегральные схемы (ПЛИС) FPGA.

Нейронные процессоры прежде всего необходимы при решении задач машинного обучения. Если для конкретного внедрения нам нужно 16 стоек с 8 серверами в каждой, нашпигованными нейропроцессорами, то решение того же уровня на базе архитектуры x86 потребовало бы (!) около 128 стоек. Как видите, большое разнообразие типов расчётов заставляет тщательно выбирать и аппаратные платформы.

Хранение данных

Уже второй год Huawei призывает партнёров, заказчиков, коллег по отрасли строить системы хранения данных в соответствии с принципом Flash Only. И большинство наших заказчиков используют механические шпиндельные накопители только в старых решениях или для редко используемых архивных данных.

Flash-системы тоже эволюционируют. На рынке появляются такие системы Storage Class Memory (SCM), как Intel Optane. Интересные разработки демонстрируют китайские и японские производители. На текущий момент SCM по классу обработки превосходят все остальные решения. Пока лишь высокая стоимость не позволяет использовать их повсеместно.

В то же время мы видим, что качество СХД надо повышать не только на условном бэкенде, но и на фронтенде. Сейчас де-факто в новых внедрениях мы, как правило, предлагаем и задействуем механизмы прямого доступа к памяти через Ethernet, но видим запрос заказчиков и поэтому ближе к концу года начнём чаще использовать NVMe over Fabrics. Причём end-to-end, чтобы обеспечивать общую архитектуру, которая, конечно, должна быть высокопроизводительной и устойчивой к выходу контроллеров из строя.

Система хранения данных OceanStor Dorado — один из наших флагманских продуктов. Внутренние испытания показали, что она обеспечивает производительность на уровне 20 млн IOPS, сохраняя работоспособность при поломке семи из восьми контроллеров.

К чему такая мощность? Давайте рассмотрим злободневную ситуацию. Вот уже несколько месяцев жители Китая значительно больше времени проводят дома в связи с режимом изоляции. Интернет-трафик на это время вырос в среднем на 30%, а в некоторых провинциях и вовсе вдвое. Выросло потребление самых разных сетевых сервисов. И в какой-то момент те же банки начали испытывать серьёзную дополнительную нагрузку, к которой их СХД оказались не готовы.

Понятно, что 20 млн IOPS сейчас требуются далеко не всем. Но что будет завтра? Наши интеллектуальные системы максимально полно раскрывают потенциал нейронных процессоров, для того чтобы обеспечить компактность трафика, дедупликацию, оптимизацию и оперативное восстановление данных.

Опорная сеть

2020 год, как мы упоминали в предыдущем материале, станет для нас годом опорных сетей. Многие заказчики, особенно поставщики услуг приложений (ASP) и банки, уже думают о том, как их приложения будут работать именно с точки зрения связи с ЦОДами и между ЦОДами. Тут нам приходит на помощь новая опорная сеть. В качестве примера приведём крупнейшие китайские банки, которые перешли на упрощённые опорные системы, использующие для связи между ЦОДами не десяток различных протоколов, а, условно говоря, пару — OSPF и SRv6. Притом что получает организация тот же набор сервисов.

Интеллектуальные ресурсы

Как использовать данные? До недавнего времени существовала фрагментированная система разношёрстных баз данных: Microsoft SQL, MySQL, Oracle и т. д. Для работы с ними применялись решения из области big data, способные объединять эти данные, забирать их, работать с ними. Все это создавало высокую нагрузку на ресурсы.

Вместе с тем отсутствовал механизм выполнения операций с данными по наступлении какого-то события. Решением стала разработка принципов управления жизненным циклом данных (DLM).

Все слышали о data lakes. С переходом от data management к data governance «цифровые озера» стали стремительно «умнеть». В том числе и благодаря решениям Huawei. В следующих материалах мы обязательно расскажем обо всём стеке использованных нами программных технологий. Сейчас важно отметить, что именно применение «умного» управления жизненным циклом данных позволило нам упростить использование нашей сети и серверов, а также научиться строить сквозные архитектуры для лучшего понимания принципов работы с данными.

Инженерная инфраструктура ЦОДа

Мы будем публиковать отдельные материалы, посвящённые инженерной инфраструктуре, однако в контексте сегодняшней темы хотели бы упомянуть те изменения, которые имеют отношение к концепции HiDC.

Долгое время использование в системах аварийного и резервного питания (СРП) ЦОД литиевых батарей было под запретом из-за их высокой пожароопасности. Любое механическое повреждение или нарушение целостности батареи могло привести к её возгоранию и непредсказуемым последствиям. В связи с этим СРП комплектовались морально устаревшими кислотными батареями, обладающими низкой удельной плотностью заряда при большой массе.

В новых системах аварийного и резервного питания Huawei применяются безопасные литий-железо-фосфатные аккумуляторы (LFP) с интеллектуальным проактивным управлением. При той же ёмкости они занимают втрое меньший объём по сравнению с кислотными батареями. Их жизненный цикл составляет 10–15 лет, что, помимо всего прочего, снижает создаваемую ими нагрузку на окружающую среду. Запатентованная система управления в экосистеме SmartLi позволяет применять гибридные системы, состоящие из массивов батарей старого и нового типа, а система коммутации допускает внесение «горячих» изменений в структуру СРП с непрерывным сохранением функции резервирования.

«Умная» эксплуатация

Важная часть принципов эксплуатации инфраструктуры HiDC — идеология smart self-healing. В одной из наших прошлых публикаций мы упоминали интеллектуальную платформу O&M 1-3-5, которая способна не только обнаружить и проанализировать нежелательное событие в системе, но и предложить администратору несколько вариантов полностью автоматизированного решения проблемы.

Функция самоанализа позволяет обнаружить неполадки приблизительно за минуту. Три минуты уходит на анализ, и в течение пяти минут формируются предложения по изменению состояния системы.

Допустим, некая ошибка оператора привела к формированию замкнутой петли процессов, снижающей производительность фермы виртуализации со 100 до 77%. Администратор ЦОД получает на свой дашборд соответствующее сообщение, которое содержит полную визуализацию проблемы, включая сетевую схему ресурсов, затронутых нежелательным процессом. Далее администратор может приступить к исправлению ситуации в ручном режиме или воспользоваться одним из нескольких предложенных ему автоматических сценариев восстановления.

Таких сценариев, которые могут быть реализованы менее чем за десять минут, система знает порядка 75. Причём покрывают они 90% проблем, которые встречаются в ЦОДах. В это время инженер может спокойно отвечать на звонки обеспокоенных клиентов, будучи уверенным в том, что сервис будет восстановлен с минуты на минуту.

Новые ключевые продукты в HiDC

Помимо программных продуктов, сюда следует отнести ключевые решения, действующие на уровне инфраструктуры. Прежде всего надо упомянуть нейронные процессоры, используемые в наших ИИ-кластерах семейства Atlas, а также серверы на базе NPU и GPU.

Кроме того, нельзя снова не упомянуть о Dorado и его рекордной производительности в своём классе, которой с запасом хватит на долгие годы. Это особенно актуально на постсоветском пространстве, где за редким исключением принято что-то обновлять, только когда оно совсем перестаёт работать. Этим объясняются сроки службы отдельных СХД, достигающие десяти лет. Огромная производительность необходима Dorado для того, чтобы и через десять лет обеспечивать высокое качество предоставления сервисов.

Инновации в каждом элементе

При выборе конкретных инфраструктурных решений нельзя забывать про архитектуру и сценарии её дальнейшего развития. Разрозненные продукты от разных производителей не гарантируют ожидаемого синергетического эффекта, который обеспечат решения, уже оптимизированные для совместного использования.

В основе инфраструктуры должны лежать правильные технологии. «Правильные» — это в том числе открытые, обеспечивающие высокую пропускную способность, устойчиво функционирующие при высоких нагрузках. Применительно к ЦОДам, например, важно хорошее соотношение общего энергопотребления к IT-нагрузке. Для достижения всех перечисленных целей надо подобрать среду и компоненты. В современных условиях это означает ещё и всё более широкое применение искусственного интеллекта.

По нашим наблюдениям, среди стратегических заказчиков Huawei всё меньше тех, кто до сих пор не использует системы машинного обучения. Без ML попросту не получится максимально монетизировать накопленные данные.

Система монетизации может быть разной: у банков — предложение новых таргетированных продуктов, у телеком-операторов — оказание индивидуальных услуг и обеспечение лояльности, у государственных заказчиков — качественное управление жизненным циклом данных и высокий уровень взаимодействия с другими организациями. Ведь модели управления данными уже давно не сводятся к настройке файрволла и обеспечению сетевой видимости своих БД.

От идеи до действующего ЦОДа

Строительство стандартного ЦОДа в лучшем случае занимает от года до полутора. Наш производственный цикл позволяет сделать это намного быстрее благодаря использованию группы решений, объединённых под общим названием FusionDC 2.0. Проектирование, разработка высокоуровневого дизайна, сборка всех элементов IT-нагрузки выполняются непосредственно на заводе. За короткое время оборудование морскими контейнерами доставляется из Китая в Россию. В итоге создание ЦОДа «под ключ» можно обеспечить буквально за четыре-пять месяцев.

Идея prefabricated cloud data center интересна ещё и тем, что развивать ЦОД можно поэтапно, добавляя к нему необходимые функциональные блоки. Такой подход заложен в саму концепцию HiDC.

Чтобы не превращать обзорный материал в datasheet, за дополнительной информацией по HiDC мы предлагаем отправиться на наш сайт. Там вы найдёте описание и примеры внедрения тех подходов, продуктов и решений, о которых мы рассказали. Материалов будет тем больше, чем выше ваш уровень доступа к сайту. Если вам присвоен статус «партнёр», вы сможете скачать дорожные карты HiDC, технические презентации, видеоролики.

Рискнём предположить, что большинство читающих эту статью обладает компетенциями сетевых архитекторов. Им наверняка будет интересно посетить нашу дизайн-зону. Там мы подробно рассказываем о том, как строить сетевую инфраструктуру по правилам Huawei Validated Design (HVD). Доступные для скачивания гайдлайны помогут досконально разобраться, как работают решения компании. Не забудьте только, что без авторизации вам будет доступно меньше материалов.

Источник