Новини

IBM & NVIDIA представят дългоочаквания NVLink сървър


IBM & NVIDIA представят дългоочаквания NVLink сървър

 

 
 

IBM & NVIDIA представят дългоочаквания NVLink сървър

 

Преди четири години IBM и NVIDIA започнаха съвместен проект с цел вграждане на високоскоростната връзка NVLink между процесора IBM POWER8 и GPU ускорителя Tesla P100 GPU на NVIDIA.
В резултат IBM пусна в продажба IBM Power Systems S822LC за високоскоростни компютърни операции (НРС) — система, съчетаваща два високопроизводителни POWER8 процесора с  NVLink с четири Tesla P100 GPU ускорителя на NVIDIA, свързани с  високоскоростен интерфейс NVLink. Сървърът е специално разработен за новия GPU ускорител NVIDIA Tesla P100 с формфактор SXM2.

Тази платформа решава един фундаментален проблем както за разработчиците, така и за потребителите на графични процесори: захранването с данни на мощни, паралелно свързани GPU. Двете NVLink връзки между процесора POWER8 и графичните процесори Tesla P100 ускоряват преноса на данни 2,5 пъти в сравнение с традиционните Intel x86 базирани сървъри, който използват PCIe x16 Gen3.[1]
POWER8 CPU е единственият процесор с NVLink интерфейс, и това  осигурява на NVIDIA GPU ускорителите високоскоростен достъп до системната памет. Така, че бази данни, мощни аналитични приложения и високопроизводителни изчислителни модули да могат да работят с много по-големи масиви от данни, отколкото позволяват х86 системите, използващи GPU на PCIe интерфейс.

Съчетаване на двата най-производителни процесора: Tesla P100 и POWER8


Новият NVIDIA Tesla P100 ускорява невероятно скоростта на операциите с плаваща запетая, поддържайки 21 терафлопа half-precision, 10,6 терафлопа single-precision  и 5,3 терафлопа при doublee-precision производителност. Ускорителят включва вградена 16GB от новата HBM2 памет с производителност 720 GB/s. Tesla P100 с NVLink GPU с SXM2 формфактор осигурява 14 % повече чиста изчислителна производителност в сравнение с PCI-E варианта.
Новият POWER8 с процесор NVLink притежава 10 ядра, работещи на честоти до 3,26 GHz. Всеки POWER8 процесор в сървъра има по-висока пропускателна способност на паметта, отколкото процесорите x86, а именно 115 GB/s и поддържа цели 0,5 терабайта системна памет на сокет. POWER8 съдържа повече cache на ядро, което в съчетание с по-бързите ядра и по-високата пропускателна способност на паметта е предпоставка за много по-висока скорост и производителност на приложенията.
 

NVLink означава повече производителност, програмируемост и повече ускорени приложения

NVLink има три предимства по отношение на ускоряването на приложения:
  1. Производителност: POWER8 с процесор NVLink и Tesla P100 GPU имат четири NVLink интерфейса, които поддържат 5 пъти по-бърза комуникация от PCIe x16 Gen3 връзките, използвани в други системи. Това осигурява по-бърз обмен на данни и по-високо бързодействие на приложенията.
     
  2. Програмируемост: Софтуерът CUDA 8 и Page Migration Engine в Tesla P100 създават общо адресно пространство с автоматизирано управление на данните между системната памет свързана с процесорите и паметтта на GPU. Съчетана с NVLink, обединената памет значително улеснява разработчиците при програмирането на GPU ускорители. Приложенията могат лесно да бъдат ускорени с графични процесори чрез постепенно преместване на функции от CPU на GPU, без необходимост от промяна в управлението на данните.
     
  3. Повече възможност за ускоряване: Тъй като NVLink съкращава времето за комуникация между CPU и GPU, неголеми обеми от работа могат да бъдат прехвърляни върху GPU за по-бързо изпълнение.

Първите сравнения показват повече от двукратно увеличение на производителността

Резултатите от първите сравнителни тестове на новата система изглеждат страхотно.
 

Горната графика показва ускоряването на няколко приложения и изчислителни товара при новата S822LC за HPC с използване на Tesla P100 GPUs и NVLink, сравнено с конкурентни сървъри, използващи същия брой GPU от предишно поколение  Tesla K80 GPUs, свързани чрез PCIe. Резултатите при тези разнообразни приложения са:
  • Почти двукратно увеличение на производителността при Lattice QCD – приложение за квантова хромодинамика в изчислителната физика[2]
  • 2,25 пъти увеличение на производителността при CPMD –приложение, предназначено за изчислителната химия [3]
  • Двукратно увеличение на производителността при SOAP3-dp; приложение в областта на био-информатиката (геномиката)[4]
  • 2,4 пъти увеличение на производителността при Kinetica – in-memory релационна база данни
  • 1,75 пъти увеличение на производителността при  HPCG; специално приложение за сравняване на мощни изчислителни системи[6]

Ускоряване на „дълбокото учене“: По-бързо машинно обучение с P100 и NVLink

 

Производителността е също толкова вълнуваща и за Deep Learning приложения. Power Systems S822LC за HPC с четири GPU NVIDIA P100 намалява времето за машинно обучение (измерено по AlexNet с Caffe), достигайки 50 % точност за един час и 44 минути. Комбинацията от Tesla P100 с високата пропускателна способност на NVLink открива нови възможности за оптимизация и бързодействие в бързо развиващото се технологично пространство.

 

Вижте какво може да направите с този сървър

За повече информация, както и за поръчки на  IBM Power Systems S822LC за НРС, посетете  HPC on Power или се обърнете към вашия IBM бизнес партньор.
IBM кани разработчиците на GPU софтуер да се включат в  IBM-NVIDIA Acceleration Lab, за да бъдат сред първите, които ще изпитат и използват предимствата на GPU ускорител Tesla P100 GPU и високоскоростната NVLink връзка  с IBM POWER8 CPU.
 [1]Постигната пикова CPU:GPU пропускателна способност от 2.80X. Резултатите са базирани на собствени измервания на IBM Ping-Pong Bandwidth тест.
Power System S822LC за НРС; 2 x 10core чипа/160 threads, POWER8; 2.9 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4xNVIDIA Tesla P100 GPU;  Ubuntu 16.04.
Power System S822LC; 2 x 10core чипа/160 threads, POWER8; 2.9 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 2x NVIDIA Tesla K40 GPU;  Ubuntu 16.04.

[2] Всички резултати са от изпълнението на  LatticeQCD и са отчетени в GFLOPS.
Power System S822LC; 2 x 10core чипа/160 threads, POWER8 с NVLink; 2.86 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4xTesla P100 с NVLink GPUs;  Ubuntu 16.04.
Конкурентен setup: 2x Xeon E5-2640 v4; 20 ядра (2 x 10) /  40 threads; Xeon E5-2640 v4;  2.4 GHz; 256 GB памет, 1 x 2TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4xTesla K80 GPUs, Ubuntu 16.04.
 
[3] Всички резултати са от изпълнението на  CPMD – parallelized plane wave /псвепотенциална имплементация на Density Functional Theory Application. Използвана е хибридна версия на CPMD (на MPI + OPENMP + GPU + стриймове) с изпълнения за 128-Water Box, RANDOM инициализация. Резултатите са отчетени във време за изпълнение (секунди) и е изчислен коефициент на ускорение.
Power System S822LC; 2 x 10core чипа/160 threads, POWER8 с NVLink; 2.86 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 2x Tesla P100 с NVLink GPUs;  Ubuntu 16.04.
Конкурентен setup: 2x Xeon E5-2640 v4; 20 ядра (2 x 10) /  40 threads; Xeon E5-2640 v4;  2.4 GHz; 256 GB памет, 1 x 2TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 2x Tesla K80 GPU, Ubuntu 16.04.
 
[4] Всички резултати са от изпълнението на  SOAP3-dp и са отчетени в милиони равнени базови двойки в секунда (MBPAS) с 2 instances на устройство.
Power System S822LC; 2 x 10core чипа/160 threads, POWER8 с NVLink; 2.86 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4x Tesla P100 с NVLink GPUs;  Ubuntu 16.04.

Конкурентен setup: 2x Xeon E5-2640 v4; 20 ядра (2 x 10) /  40 threads; Xeon E5-2640 v4;  2.4 GHz; 256 GB памет, 1 x 2TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4x Tesla K80 GPU, Ubuntu 16.04.
 
[5] Всички резултати са от изпълнението под Kinetica на справки с „филтър по географски район“ върху множество от 280 милиона симулирани туита и 1 до 80 едновременни query streams, всеки с 0 „време за мислене“.
Изпитани системи: Power System S822LC; 2 x 10core чипа/160 threads, POWER8; 2.86 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4xP100 GPU;  Ubuntu 16.04.
Конкурентен setup: 2x Xeon E5-2640 v4; 20 ядра (2 x 10) /  40 threads; Xeon E5-2640 v4;  2.4 GHz; 256 GB памет, 1 x 2TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4xTesla K80 GPU, Ubuntu 16.04.

[6] Всички резултати са от изпълнението сравнителния софтуер High Performance Conjugate Gradients (HPCG, за подробности виж http://www.hpcg-benchmark.org/. Power System S822LC; Конкурентен setup: 2x Xeon E5-2640 v4; 20 ядра (2 x 10) /  40 threads, POWER8; 2.9 GHz, 256 GB памет, 2 x 1TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4xP100 GPU;  Ubuntu 16.04.

Конкурентен setup: 2x Xeon E5-2640 v4; 20 ядра (2 x 10) /  40 threads; Xeon E5-2640 v4;  2.4 GHz; 256 GB памет, 1 x 2TB SATA 7.2K rpm HDD, 2-port 10 GbEth, 4x Tesla K80 GPU, Ubuntu 16.04
 

Sumit Gupta

Вицепрезидент, високопроизводителни системи за изчисления и анализ на данни

 
 

Регистрация

Данни на фирмата
Адрес за доставка
Бизнес информация
  • Годишен оборот на фирмата за предходната година в лева без ДДС.
  • Очакван оборот със Солитрон
  • Брой офиси/магазини
  • Брой служители
Потребителски данни
  • Въведете символите от картинката.

    captcha

Потребителя ще може да:

  • Да редактира фирмените данни
  • Да кани нови потребители и да изтрива съществуващи такива
  • Да разглежда всички документи

На посочения имейл ще получите инструкции за работа със системата ни. Акаунтът ще бъде активиран от наш служител.

Запитване

  • Въведете символите от картинката.

    captcha

Кандидаствай

Видео