เมื่อ : 19 ธ.ค. 2566 , 190 Views
HPE เร่งความเร็วในการเทรน AI ด้วยโซลูชันแบบครบวงจรใหม่ที่ขับเคลื่อนโดย NVIDIA

โซลูชันใหม่สำหรับศูนย์วิจัยและองค์กรขนาดใหญ่เพื่อเร่งความเร็วของ AI ชนิด Generative AI โดยผสานรวมกับซอฟต์แวร์ AI/ML ฮาร์ดแวร์ ระบบเครือข่าย และบริการชั้นนำในอุตสาหกรรม

 

กรุงเทพฯ –18 ธันวาคม 2566 – บริษัทฮิวเลตต์ แพคการ์ด เอนเตอร์ไพรส์ [Hewlett Packard Enterprise (NYSE: HPE)] ประกาศเปิดตัวโซลูชันซูเปอร์คอมพิวเตอร์ (Supercomputer Solution) สำหรับ Generative AI ที่ออกแบบมาสำหรับองค์กรขนาดใหญ่ สถาบันวิจัยและองค์กรภาครัฐ เพื่อใช้เร่งการเทรนและปรับแต่งโมเดลปัญญาประดิษฐ์ (AI) โดยใช้ชุดข้อมูลส่วนตัว โดยโซลูชันนี้ประกอบด้วยชุดซอฟต์แวร์ที่ช่วยให้ลูกค้าสามารถเทรนและปรับแต่งโมเดลและพัฒนาแอปพลิเคชัน AI ได้ อีกทั้งยังรวมถึง Supercomputer แบบระบายความร้อนด้วยของเหลว การประมวลผลแบบเร่งความเร็ว การสร้างเครือข่าย พื้นที่จัดเก็บข้อมูล และบริการต่าง ๆ เพื่อช่วยให้องค์กรของท่านได้รับศักยภาพจา AI ได้รวดเร็วยิ่งขึ้น

 

จัสติน โฮทาร์ด รองประธานกรรมการบริหารและผู้จัดการทั่วไปฝ่าย HPC AI & Labs ฮิวเลตต์ แพคการ์ด เอนเตอร์ไพรส์ กล่าว “บริษัทและศูนย์วิจัยชั้นนำของโลกกำลังเทรนและปรับแต่งโมเดล AI เพื่อขับเคลื่อนนวัตกรรมและปลดล็อกความก้าวหน้าในการวิจัย แต่เพื่อให้ดำเนินการดังกล่าวได้อย่างมีประสิทธิภาพและประสิทธิผล พวกเขาต้องมีโซลูชันที่สร้างขึ้นเฉพาะเพื่อสนับสนุน Generative AI องค์กรต่าง ๆ จำเป็นต้องใช้ประโยชน์จากโซลูชันที่ยั่งยืนซึ่งให้ประสิทธิภาพและสเกลระดับ Supercomputerโดยเฉพาะ เพื่อรองรับการเทรนโมเดล AI และเราตื่นเต้นมากที่ได้ขยายความร่วมมือกับ NVIDIA เพื่อนำเสนอโซลูชันเฉพาะสำหรับ AI แบบครบวงจร ซึ่งจะช่วยให้ลูกค้าของเราเร่งความเร็วในการเทรนโมเดล AI และได้ผลลัพธ์ที่มีประสิทธิภาพ”

 

เครื่องมือซอฟต์แวร์ในการสร้างแอปพลิเคชัน AI ปรับแต่งโมเดลที่สร้างไว้ล่วงหน้า รวมถึงพัฒนาและแก้ไขโค้ด ถือเป็นองค์ประกอบสำคัญของ Supercomputer Solution สำหรับ Generative AI ซอฟต์แวร์นี้ผสานรวมกับเทคโนโลยี Supercomputer HPE Cray ซึ่งใช้สถาปัตยกรรมที่ทรงพลังแบบเดียวกับที่ใช้ใน Supercomputer ที่เร็วที่สุดในโลก และขับเคลื่อนโดย NVIDIA Grace Hopper GH200 Superchips เครื่องมือซอฟต์แวร์ในการสร้างแอปพลิเคชัน AI ปรับแต่งโมเดลที่สร้างไว้ล่วงหน้า รวมถึงพัฒนาและแก้ไขโค้ด ถือเป็นองค์ประกอบสำคัญของ Supercomputer Solution สำหรับ Generative AI ด้วยเทคโนโลยีทั้งสอง โซลูชันนี้จึงช่วยให้องค์กรต่าง ๆ ได้รับสเกลและประสิทธิภาพสูงสุดเป็นประวัติการณ์ ซึ่งจำเป็นต่อเวิร์กโหลดของ AI ขนาดใหญ่ เช่น โมเดลภาษาขนาดใหญ่ (LLM) และการเทรนโมเดลแนะนำการเรียนรู้แบบอัตโนมัติ (DLRM) เมื่อใช้สภาพแวดล้อมการพัฒนาการเรียนรู้ของเครื่อง HPE ในระบบนี้ โมเดล Llama 2 แบบโอเพนซอร์ส 7 หมื่นล้านพารามิเตอร์ จะได้รับการปรับแต่งอย่างละเอียดภายในเวลาไม่ถึง 3 นาที[i] ซึ่งหมายถึงระยะคุ้มทุน (Time-to-value) ที่รวดเร็วยิ่งขึ้นสำหรับลูกค้า ความสามารถ Supercomputer ขั้นสูงของ HPE ซึ่งสนับสนุนโดยเทคโนโลยี NVIDIA จะช่วยเพิ่มประสิทธิภาพของระบบได้มากขึ้น 2-3X เท่า[ii]

 

เอียน บัค รองประธานฝ่าย Hyperscale และ HPC ของ NVIDIA กล่าว “Generative AI กำลังเปลี่ยนแปลงทุกความพยายามทางอุตสาหกรรมและวิทยาศาสตร์ ความร่วมมือของ NVIDIA กับ HPE ในการเทรน AI แบบครบวงจรและโซลูชันแบบจำลอง ซึ่งขับเคลื่อนโดย NVIDIA GH200 Grace Hopper Superchips นี้จะช่วยให้ลูกค้าได้รับประสิทธิภาพที่จำเป็นต่อความสำเร็จในโครงการริเริ่ม Generative AI ของตน”

โซลูชัน AI แบบบูรณาการที่มีประสิทธิภาพ

Supercomputer Solution สำหรับ Generative AI ได้รับการออกแบบขึ้นมาเฉพาะสำหรับ AI และเป็นแบบบูรณาการ ซึ่งได้รวมเทคโนโลยีและบริการแบบครบวงจร (End-to-end) ต่อไปนี้เข้าไว้ด้วยกัน

 

  • ซอฟต์แวร์เร่ง AI/ML – ชุดเครื่องมือซอฟต์แวร์สามรายการที่จะช่วยให้ลูกค้าเทรนและปรับแต่งโมเดล AI รวมถึงสร้างแอปพลิเคชัน AI ของตนเองได้
    • สภาพแวดล้อมการพัฒนาการเรียนรู้ของเครื่อง HPE  เป็นแพลตฟอร์มซอฟต์แวร์การเรียนรู้ของเครื่อง (ML) ที่ช่วยให้ลูกค้าสามารถพัฒนาและปรับใช้โมเดล AI ได้เร็วยิ่งขึ้น โดยการผสานรวมกับขอบข่ายงาน ML ยอดนิยม และทำให้การเตรียมข้อมูลนั้นง่ายขึ้น
    • NVIDIA AI Enterprise ช่วยเร่งองค์กรให้ไปสู่ AI ระดับแนวหน้าด้วยระบบรักษาความปลอดภัย ความเสถียร ความสามารถในการจัดการและการสนับสนุน โดยนำเสนอขอบข่ายงานที่กว้าง โมเดลที่ได้รับการเทรนล่วงหน้า และเครื่องมือที่ช่วยปรับปรุงการพัฒนาและการปรับใช้ AI การผลิต
    • ชุดสภาพแวดล้อมโปรแกรม HPE Cray นำเสนอชุดเครื่องมือที่สมบูรณ์ให้กับโปรแกรมเมอร์สำหรับการพัฒนา การย้าย (Porting) การแก้จุดบกพร่อง (Debugging) และการปรับแต่งโค้ด 

       
  • ออกแบบมาเพื่อการใช้งานแบบขยาย – ด้วย HPE Cray EX2500 ซึ่งเป็นระบบระดับเอกซะสเกล (Exascale) และยังมี NVIDIA GH200 Grace Hopper Superchips ชั้นนำในอุตสาหกรรมอีกด้วย จึงทำให้โซลูชันนี้สามารถขยายขนาดหน่วยประมวลผลกราฟิก (GPU) ได้สูงสุดถึงหลายพันหน่วย พร้อมกับความสามารถในการจัดสรรความจุแบบเต็มโหนดเพื่อรองรับเวิร์กโหลด AI ชิ้นเดียวเพื่อระยะคุ้มทุนที่เร็วยิ่งขึ้น ระบบนี้เป็นระบบแรกที่มีการกำหนดค่าโหนด Quad GH200 Superchip

 

  • เครือข่ายสำหรับ AI แบบเรียลไทม์ – HPE Slingshot Interconnect นำเสนอเครือข่ายประสิทธิภาพสูงแบบเปิดบนอีเทอร์เน็ต ซึ่งออกแบบมาเพื่อรองรับปริมาณงานใหญ่ระดับเอกซะสเกล (Exascale) ด้วยเทคโนโลยี HPE Cray ทำให้การเชื่อมต่อโครงข่ายแบบปรับแต่งได้นี้ช่วยเพิ่มประสิทธิภาพให้กับทั้งระบบโดยช่วยให้สามารถสร้างเครือข่ายความเร็วสูงมาก ๆ ได้
     
  • ความเรียบง่ายที่ครบวงจร – โซลูชันนี้มีบริการเสริม HPE Complete Care Services ซึ่งให้บริการผู้เชี่ยวชาญระดับโลกในเรื่องการตั้งค่า การติดตั้ง และการสนับสนุนตลอดอายุการใช้งาน เพื่อช่วยให้การใช้ AI เป็นเรื่องง่าย

อนาคตของ Supercomputer และ AI จะยั่งยืนมากขึ้น

มีการคาดการณ์ว่าภายในปี พ.ศ. 2571 การเติบโตของปริมาณเวิร์กโหลด AI จะต้องใช้พลังงานภายในศูนย์ข้อมูลประมาณ 20 กิกะวัตต์ ลูกค้าจะต้องใช้โซลูชันที่ช่วยประหยัดพลังงานขึ้นอีกระดับเพื่อลดผลกระทบจากการปล่อยก๊าซเรือนกระจก

 

การประหยัดพลังงานเป็นหัวใจสำคัญของความคิดริเริ่มด้านคอมพิวเตอร์ของ HPE ซึ่งให้โซลูชั่นที่มีความสามารถในการระบายความร้อนด้วยของเหลวที่สามารถปรับปรุงประสิทธิภาพการทำงานได้สูงถึง 20% ต่อกิโลวัตต์เมื่อเทียบกับโซลูชั่นแบบระบายความร้อนด้วยอากาศ อีกทั้งยังใช้พลังงานน้อยลงถึง 15%[iii]

 

ในปัจจุบัน HPE ส่งมอบ Supercomputer ที่มีประสิทธิภาพสูงสุด 10 อันดับแรกของโลกส่วนใหญ่โดยใช้การระบายความร้อนด้วยของเหลวโดยตรง (DLC) ซึ่งรวมอยู่ใน Supercomputer Solution สำหรับ Generative AI ทั้งนี้เพื่อช่วยให้ระบบเย็นลงอย่างมีประสิทธิภาพ ในขณะที่ช่วยประหยัดพลังงานสำหรับแอปพลิเคชันที่มีการประมวลผลในระดับสูง 

 

HPE เหมาะอย่างยิ่งในการช่วยให้องค์กรต่าง ๆ ได้เผยเทคโนโลยีการประมวลผลที่ทรงพลังที่สุดเพื่อขับเคลื่อนเป้าหมาย AI ของตนไปข้างหน้า ทั้งยังช่วยประหยัดพลังงานอีกด้วย

 

การวางจำหน่าย

Supercomputer Solution สำหรับ Generative AI วางจำหน่ายแล้วในเดือนธันวาคม 2566 ผ่าน HPE กว่า 30 ประเทศ

 

แหล่งข้อมูลเพิ่มเติม

NVIDIA GH200 Grace Hopper Superchip architecture whitepaper

 


[i] การใช้โหนด 32 HPE Cray EX 2500 ร่วมกับ 128 NVIDIA H100 GPUs ที่ 97% ประสิทธิภาพตามสเกล โมเดล 7 หมื่นล้านพารามิเตอร์ Llama 2 ได้รับการปรับแต่งในการทดสอบภายในของคลังข้อมูลจำนวน 10 ล้านคำในเวลาไม่ถึง 3 นาที โค้ดการปรับแต่งโมเดลและพารามิเตอร์การเทรนไม่ได้รับการปรับให้เป็นค่าสูงสุดระหว่างการปรับสเกล

[ii] การวัดประสิทธิภาพ AI BERT และ Mask R-CNN โดยใช้ระบบที่พร้อมใช้งานทันที และไม่ได้ปรับแต่งซึ่งประกอบด้วย Supercomputer HPE Cray EX2500 ที่ใช้เบลดเร่งความเร็ว HPE Cray EX254n และ NVIDIA GH200 Grace Hopper Superchips สี่ตัว การทดสอบที่รันแบบอิสระแสดงให้เห็นการประสิทธิภาพที่ดีขึ้น 2-3 เท่า เมื่อเทียบกับ MPerf 3.0 ที่ได้รับการเผยแพร่ สำหรับระบบที่ใช้ A100 ซึ่งประกอบด้วยโปรเซสเซอร์ AMD EPYC 7763 สองตัว และ GPU NVIDIA A100 สี่ตัว ซึ่งมีการเชื่อมต่อ NVLINK

[ii] Avelar Victor; Donovan Patrick; Lin Paul; Torell Wendy; และ Torres Arango Maria A. The AI disruption: ความท้าทายและแนวทางในการออกแบบศูนย์ข้อมูล (สมุดปกขาว 110) ชไนเดอร์ อิเล็คทริค: https://download.schneider-electric.com/files?p_Doc_Ref=SPD_WP110_EN&p_enDocType=White Paper&p_File_Name=WP110_V1.1_EN.pdf

[iii] อ้างอิงตามการประมาณการจากการทดสอบประสิทธิภาพภายในที่จัดทำโดย HPE ในเดือนเมษายน 2023 ซึ่งเป็นการทดสอบเพื่อเปรียบเทียบ HPE Cray XD2000 ที่ระบายความร้อนด้วยอากาศ กับ HPE Cray XD2000 ที่ระบายความร้อนด้วยของเหลวโดยตรง โดยใช้การวัดประสิทธิภาพ SPEChpc™2021 MPI   OpenMP ขนาดเล็ก อันดับที่ 64 ผลลัพธ์โดยประมาณ 14 เธรดต่อเซิร์ฟเวอร์ ระบบระบายความร้อนด้วยอากาศมีประสิทธิภาพที่บันทึกได้คือ 6.61 ต่อกิโลวัตต์ และประสิทธิภาพที่บันทึกได้ของระบบ DLC คือ 7.98 ต่อกิโลวัตต์ ซึ่งต่างกันอยู่ 20.7% การวัดประสิทธิภาพแบบเดียวกันได้ผลลัพธ์ที่ 4539 วัตต์ สำหรับกำลังแชสซีของระบบระบายความร้อนด้วยอากาศ และของระบบ DLC ได้ผลลัพธ์ 3862 วัตต์ ซึ่งต่างกันอยู่ 14.9%