Новые процессоры повышают эффективность внедрения ИИ в компаниях
Специальный проект
Компании сталкиваются с проблемами, связанными с развертыванием приложений на базе искусственного интеллекта, которые они хотят запускать на мощных, но энергоэффективных серверах. Процессоры AMD EPYC последнего поколения помогают оптимизировать использование центров обработки данных, обеспечивают внедрение искусственного интеллекта и поддерживают повышенную эффективность.
Последнее поколение Zen 5 обеспечивает значительные улучшения производительности и эффективности машинного и глубокого обучения, высокопроизводительных вычислений (HPC) и виртуализированных рабочих сред, способных обеспечить высокую производительность. Процессоры адаптированы к ожидаемой нагрузке центров обработки данных, ориентированных на задачи искусственного интеллекта и, конечно же, для поддержки виртуализированных сред и локальных, а также облачных приложений. Процессоры серии AMD EPYC 9005 позволяют развертывать и расширять возможности искусственного интеллекта в компаниях и организациях, одновременно повышая энергоэффективность и оптимизируя центры обработки данных. Модернизация с использованием проверенной передовой архитектуры x86 освободит емкость вашего центра обработки данных и поддержит операции искусственного интеллекта и машинного обучения.
Буквально ненасытный спрос на ИИ стал решающим фактором ускорения инноваций в ИТ-инфраструктуре для компаний, пытающихся в полной мере воспользоваться этой возможностью. Другими словами, компании, которым не удается внедрить ИИ, очень рискуют отстать от конкурентов. Процессоры AMD EPYC 9005 ускоряют внедрение искусственного интеллекта, предоставляя основу платформы для консолидации центров обработки данных, где размещаются приложения искусственного интеллекта с использованием процессора машинного обучения с ускорением на графическом процессоре. Новые процессоры позволят раскрыть потенциал искусственного интеллекта при том же или даже меньшем энергопотреблении. Мощная и надежная архитектура, расширенные функции и растущая экосистема программного обеспечения делают AMD EPYC 9005 ключевым драйвером инноваций и достижения бизнес-целей в эпоху искусственного интеллекта. Библиотека AMD ZenDNN оптимизирует строительные блоки нейронных сетей для расширения возможностей глубокого обучения на процессорах AMD. API поддерживают популярные платформы искусственного интеллекта, такие как TensorFlow, PyTorch и ONNX Runtime.
Процессоры AMD EPYC 9005 используют гибридную многокристальную конструкцию и новые ядра Zen 5 и Zen 5c. Они были разработаны с упором на решение проблем центров обработки данных, чтобы обеспечить максимальную производительность и эффективность в виртуализированных и облачных средах, а также на поддержку рабочих нагрузок искусственного интеллекта (оба задачи выполняются непосредственно на ЦП, а также поддерживают ускорение графического процессора). Хотя центральные процессоры графических и тензорных карт берут на себя основную вычислительную нагрузку, производительность процессора и пропускная способность данных между процессором и оперативной памятью очень важны, поскольку центральные процессоры берут на себя управление работой графических процессоров и подачу данных для обработки. Все процессоры семейства продуктов AMD EPYC 9005 поддерживают до 12 каналов памяти DDR5-6000, 128 линий ввода-вывода PCIe Gen 5 (до 160 в двухпроцессорных серверах) и оснащены технологиями AMD Secure Processor для обеспечения доменов шифрования виртуальных машин. . .
Процессоры AMD EPYC 5-го поколения используют два разных типа ядер для обработки различных рабочих нагрузок путем изменения типа и количества ядер.
Ядро Zen 5 оптимизировано для высокой производительности. Это комбинация до восьми ядер, образующих комплекс ядер (CCX), содержащий 32 МБ общей кэш-памяти L3. Комплекс ядер представляет собой кристалл (CCD), а в процессоре EPYC 9005 их можно настроить до 16, то есть в формате SP5 можно иметь до 128 ядер. По сравнению с предыдущим поколением процессоры AMD EPYC 5-го поколения с ядром Zen 5, а также более быстрая память и другие улучшения процессора обеспечивают на 20 % большую производительность для целочисленных арифметических операций и на 34 % для арифметических операций с плавающей запятой.
Ядро Zen 5c оптимизировано по плотности и производительности. Оно имеет ту же логику передачи регистров, что и ядро Zen 5, но физически занимает меньше места и рассчитано на выдачу большей мощности на ватт. Комплекс ядер Zen 5c включает до 16 ядер и общий кэш L3 объемом 32 МБ. До 12 таких ПЗС-матриц можно комбинировать с ПЗС-матрицами ввода-вывода для создания ЦП с числом ядер до 192 в формате SP5.
Ядра Zen 5 производятся по техпроцессу 4 нм, ядро Zen 5c — по техпроцессу 3 нм. Матрица ввода-вывода осталась на уровне 6 нм, как и в предыдущем поколении. Такой подход более гибок и динамичен, чем если бы весь процессор был выполнен по одной и той же технологии. Модульный подход позволяет комбинировать ЦП и массивы ввода-вывода, которые точно соответствуют требованиям рабочей нагрузки. Они варьируются от высокопроизводительных процессоров со 192 ядрами до систем, которым требуется всего восемь ядер.
Модульный подход позволяет создавать варианты, оптимизированные для решения конкретных задач. AMD EPYC 9005 — это гибкий процессор, позволяющий обеспечить точный баланс между вычислительной мощностью и требованиями к производительности, например:
Сбалансированная нагрузка: ядро Zen 5 с производительностью для бизнес-приложений, разработки, управления данными, а также аналитических, совместных и инфраструктурных приложений.
Для лицензий «на ядро» – для программного обеспечения, за которое вы платите лицензионные сборы в зависимости от количества ядер, выгодна конфигурация с меньшим количеством процессорных ядер и более высокими тактовыми частотами. Эти процессоры имеют букву F в конце названия типа. Типичными примерами программного обеспечения, лицензируемого таким образом, являются базы данных, аналитические и бизнес-приложения от Oracle и других поставщиков программного обеспечения.
ИИ-приложения – EPYC 9575F имеет на 33% больше ядер, чем предыдущее поколение, с самой высокой оптимизированной частотой. Массивный параллелизм в такой конфигурации обеспечивает быстрый ввод данных для графического процессора. Высокая тактовая частота и множество ядер ускоряют операции ИИ, не требующие ускорения графического процессора.
Вычисления в памяти — Многие приложения предъявляют высокие требования к объёму и пропускной способности памяти, а также к буферной памяти. В первую очередь это программное обеспечение для моделирования в реальном времени, расчетов гидродинамики или прогнозирования погоды. Чтобы удовлетворить высокие требования к памяти, доступны процессоры, которые эффективно объединяют ЦП и матрицу ввода-вывода. Это позволяет удвоить максимальную теоретическую пропускную способность памяти. Compute Express Link (CXL) 2.0 поддерживает когерентное кэширование, расширение памяти, программно-управляемую многослойную память или совместное использование памяти.
Вычислительно требовательная нагрузка — для некоторых рабочих нагрузок даже 128 ядер на процессор может оказаться недостаточно. Типичным примером являются облачные приложения в контейнерах, виртуализированные среды, нацеленные на максимально возможное количество виртуальных машин или рабочие нагрузки с высокой степенью параллелизма. Чтобы удовлетворить эти потребности, объединены до 12 оптимизированных по плотности ядер Zen 5c, которые занимают наименьшее пространство на подложке чипа, а также 1 МБ буферной памяти L2 и 32 МБ буферной памяти L3. Таким образом, общая плотность достигает 192 ядер на процессор в модели EPYC 9965, что является самым высоким показателем среди всех доступных сегодня процессоров с архитектурой x86.
Процессоры серии EPYC 9005 предназначены для удовлетворения растущих вычислительных потребностей приложений искусственного интеллекта. Благодаря 512-битным путям передачи данных, оптимизации конвейера команд и модулям с плавающей запятой эти процессоры могут выполнять различные рабочие нагрузки искусственного интеллекта без необходимости ускорения графического процессора. Такие задачи, как обнаружение изображений, анализ мошенничества, деревья решений, а также некоторые языковые модели, эффективно работают даже на мощном процессоре с подходящей архитектурой.
Процессоры серии EPYC 9005 оптимизированы для высоких тактовых частот, а также очень хорошо работают в качестве хост-процессоров в системах с графическим ускорением, обеспечивая быструю и эффективную обработку крупномасштабных задач подготовки и постобработки для искусственного интеллекта и машинного обучения. Серверы с двумя 64-ядерными процессорами EPYC 9575F, оснащенные восемью графическими ускорителями, обеспечивают примерно на 15 % более быстрое обучение по сравнению с серверами с двумя 64-ядерными процессорами Xeon 8592+ в приложениях Llama 3.1-70B и 3.1-8B.
Мы кратко представим основные функции, которые позволяют новым процессорам AMD EPYC консолидировать инфраструктуру, оптимизировать затраты и адаптироваться к меняющимся потребностям как традиционных приложений, так и приложений искусственного интеллекта.
- Большое количество ядер и многопоточная обработка – позволяет эффективно обрабатывать сложные рабочие нагрузки с помощью параллельной обработки.
- Большие тайники – предложить высокую производительность, обеспечивая быстрый доступ к часто используемым данным.
- Аппаратное ускорение – берет на себя выполнение ресурсоемких задач, связанных с искусственным интеллектом, тем самым способствуя повышению производительности.
- Расширенное управление памятью – обеспечивает высокую пропускную способность и низкую задержку для потоковой передачи данных, что также важно для искусственного интеллекта, работающего на графических процессорах.
- Надежная экосистема программного обеспечения – поддерживает наиболее распространенные платформы искусственного интеллекта и инструменты для оптимизации производительности.
Для иллюстрации приведем результаты тестирования в сравнении с 2P-серверами с процессорами AMD EPYC 9654 четвертого поколения.
Тест |
ЭПИК 4-го поколения |
ЭПИК 5-го поколения |
увеличить |
Проницаемость |
1× |
1,39× |
39% |
Поиск сходства |
1× |
1,86× |
86% |
Машинное обучение |
1× |
2,01× |
101% |
Трафик в токенах в секунду тестировался на LLM Llama 3.1-8B BF16. Для проверки поиска по сходству использовалась библиотека FAISS. Библиотека содержит алгоритмы, которые ищут сходства в векторных файлах любого размера, даже тех, которые не помещаются в оперативную память. Для тестирования ML использовалась библиотека XGBoost. В тесте TPCx-AI SF30 двухпроцессорные серверы с процессорами AMD EPYC 9965 обрабатывали в 3,8 раза больше тестовых случаев искусственного интеллекта в минуту по сравнению с двухпроцессорными серверами с процессорами Intel Xeon Platinum 8592+.
Для корпоративных приложений важна не только производительность с упором на поддержку искусственного интеллекта и энергоэффективность, но и безопасность. Компании, использующие новую процессорную платформу, смогут решать текущие и будущие проблемы безопасности с помощью усовершенствованной системы безопасности AMD Infinity Guard. Долгосрочная и последовательная приверженность AMD поддержке открытых стандартов имеет решающее значение для развития безопасных и конкурентоспособных вычислительных экосистем.
Модернизация инфраструктуры является ключом к созданию эффективной аппаратной поддержки ИИ. Серверы на базе серии EPYC 9005 поддерживают консолидацию и модернизацию центров обработки данных, удовлетворяя тем самым все более возрастающие потребности корпоративных приложений. Большое количество ядер позволяет выполнять больше задач с меньшим количеством серверов. Например, 14 новых двухпроцессорных серверов, оснащенных 192-ядерными процессорами AMD EPYC 9965, способны заменить 100 старых двухпроцессорных серверов с 28-ядерными процессорами Intel Xeon 8280. Решение на базе новых процессоров AMD снижает энергопотребление на 69%. снижает трехлетнюю совокупную стоимость владения (TCO) до 65%.
Дистрибьютор: АСБИС СК
КОММЕНТЫ