Trang chủBlogĐiều phối tài nguyên điện toán và ảo hóa GPU: Xây dựng cơ sở hạ tầng AI thế hệ tiếp theo

Điều phối tài nguyên điện toán và ảo hóa GPU: Xây dựng cơ sở hạ tầng AI thế hệ tiếp theo

2025-10-29 18:01

Từ di chuyển VMware sang cơ sở hạ tầng dựa trên GPU hiện đại

Hiểu sự thay đổi từ ảo hóa truyền thống

Thế giới ảo hóa doanh nghiệp đang thay đổi nhanh chóng. Với những thay đổi gần đây về cấp phép và phí đăng ký ngày càng tăng, nhiều tổ chức đang cân nhắc lại việc sử dụng VMware hiện tại của họ. Sự thay đổi này vượt xa việc tìm kiếm giấy phép chi phí thấp hơn. Nó cho thấy một bước tiến lớn hơn hướng tới các nền tảng ảo hóa mở, có thể phát triển và phù hợp với AI.

Các thiết lập máy ảo cũ được tạo cho các công việc tập trung vào CPU. Khi trí tuệ nhân tạo (AI), học máy (ML) và công việc học sâu phát triển, nhu cầu điện toán vượt xa những gì ảo hóa tiêu chuẩn có thể xử lý tốt. Các công ty hiện chuyển sang nền tảng quản lý cả công cụ CPU và GPU. Họ làm điều này để giải quyết những công việc nặng nhọc dựa trên dữ liệu.

Những cân nhắc chính trong quá trình di chuyển

Khi lập kế hoạch di chuyển VMware, hầu hết các nhóm CNTT đều gặp phải những vấn đề tương tự. Họ cần duy trì công việc phù hợp, đảm bảo dữ liệu được giữ nguyên và cắt giảm thời gian dừng. Một bước đi suôn sẻ cần có một khung phối hợp. Khung này có thể xử lý các công cụ một cách thông minh trên nhiều thiết lập hỗn hợp.

Các nền tảng ảo hóa hỗ trợ GPU hiện tại làm được nhiều việc hơn những bước di chuyển tiêu chuẩn. Chúng cho phép lập kế hoạch GPU theo thời gian thực, chia sẻ cho nhiều người dùng và phát triển phù hợp. Những kỹ năng này cho phép các công ty dễ dàng chuyển từ ảo hóa gắn liền với CPU sang xây dựng dựa trên AI. Họ làm điều này mà không có sự ràng buộc với người bán.

Tại sao tính toán điều phối tài nguyên lại quan trọng trong kỷ nguyên AI

Xác định việc điều phối tài nguyên điện toán

Điều phối tài nguyên điện toán có nghĩa là xử lý thông minh các công cụ điện toán, mạng và lưu trữ trên các loại phần cứng khác nhau. Nó cho phép các hệ thống tự động cung cấp loại bộ xử lý phù hợp—CPU, GPU hoặc thậm chí FPGA—cho từng công việc khi cần.

Sự phối hợp này đảm bảo việc sử dụng vẫn đồng đều và linh hoạt. Thay vì phân công công cụ bằng tay, hệ thống sẽ phân bổ chúng dựa trên số hiệu suất hiện tại và lệnh gọi công việc AI. Nó biến các bản dựng cố định thành một thiết lập trực tiếp, đang hoạt động.

Vai trò của việc điều phối trong quy trình AI/ML

Trong quy trình AI và ML, việc điều phối sẽ ảnh hưởng ngay đến tốc độ và chi phí. Khung kế hoạch tốt hơn có thể tăng gấp đôi mức sử dụng GPU so với thiết lập cố định.

Thông qua việc điều phối, các nhóm GPU có thể tự động cân bằng các công việc đào tạo, phỏng đoán và trước khi làm việc. Đối với thiết lập nhiều người dùng hoặc nhiều nhóm, việc phối hợp cũng đảm bảo tính công bằng. Mỗi người dùng hoặc công việc đều có được tốc độ ổn định và khả năng tiếp cận sức mạnh tính toán chắc chắn.

Không có nó, các công cụ GPU thường không được sử dụng hoặc bị chặn. Điều này dẫn đến chi tiêu bị mất. Với khả năng phối hợp, mọi bước GPU đều được sử dụng đầy đủ. Nó tăng tốc thời gian thực hiện dự án AI và cắt giảm phí xây dựng.

Ảo hóa GPU bên trong: Từ chia sẻ đến cách ly

Các khái niệm cốt lõi về ảo hóa GPU

Ảo hóa GPU cho phép một hoặc nhiều máy ảo hoặc vùng chứa chia sẻ tốt tài nguyên GPU vật lý. Điều này quan trọng đối với các công việc AI, nơi nhu cầu thay đổi nhanh chóng và sự phân chia là điều then chốt.

Bằng cách ẩn GPU trong các thiết bị ảo, nhiều công việc có thể chạy cùng lúc trên cùng một phần cứng. Điều này làm tăng sử dụng đầy đủ tốt. Nó cũng giúp GPU có thể thực hiện các tác vụ AI nhỏ hơn. Điều này cho phép sử dụng công cụ tốt hơn mà không cần cài đặt quá mức.

Phương pháp ảo hóa GPU

Ba cách ảo hóa GPU chính được sử dụng rộng rãi trong các trung tâm dữ liệu hiện tại:

Chia sẻ GPU (vGPU): Cho phép nhiều VM hoặc vùng chứa tiếp cận một GPU cùng một lúc. Nó phù hợp với việc đoán hoặc xem công việc.
Truyền qua GPU: Cung cấp quyền truy cập đầy đủ vào GPU cho một VM cho các công việc vẽ hoặc đào tạo tốc độ cao.
MIG (GPU đa phiên bản): Một công nghệ cấp phần cứng của NVIDIA giúp chia một GPU thành các phiên bản riêng biệt. Mỗi cái đều có bộ nhớ thiết lập và bộ phận tính toán.

MIG hoạt động tốt cho các thiết lập AI nhiều người dùng. Ở đó, sự phân chia và tốc độ đều ổn định như nhau. Việc phân chia dựa trên MIG có thể tăng tỷ lệ sử dụng lên 70–80%. Nó giữ cho công việc miễn phí.

Lợi ích của ảo hóa GPU

Ảo hóa GPU giúp tiết kiệm chi phí và tăng cường dễ dàng. Nó cho phép các nhóm CNTT thiết lập GPU ảo (vGPU) theo nhu cầu công việc. Họ có thể cung cấp GPU đầy đủ cho các công việc đào tạo nặng. Họ có thể chém người khác để làm những công việc nhẹ nhàng.

Ngoài ra, nó làm cho việc bảo trì đơn giản hơn. Khi GPU được ảo hóa, các thay đổi về phần cứng hoặc trình điều khiển có thể xảy ra mà ít gây gián đoạn dịch vụ. Điều này tạo thành một điểm cộng lớn cho các công ty dựa trên AI.

Điều phối khối lượng công việc GPU trong môi trường Cloud-Native

Lập lịch GPU trong cụm Kubernetes và AI

AI xây dựng ngày nay được xây dựng nhiều hơn trên các hệ thống dựa trên nền tảng đám mây, dựa trên container như Kubernetes. Nhưng Lập lịch GPU trong Kubernetes khó hơn nhiều so với Lập lịch CPU. GPU có các bản dựng và nhu cầu trình điều khiển khác nhau.

Các công cụ như plugin thiết bị Kubernetes và khung chia sẻ GPU vCluster giúp bạn có thể cung cấp các lát GPU ngay bây giờ. Việc điều phối GPU không chỉ bao gồm việc cung cấp các đơn vị tính toán. Nó cũng xử lý dữ liệu gần, chia sẻ bộ nhớ và phân chia vùng chứa. Đây là những phần quan trọng trong quá trình đào tạo AI để sử dụng hiệu quả.

Multi-Tenancy trong quản lý GPU

Trong các nhóm AI lớn, nhiều nhóm cần công cụ GPU cùng lúc. Nếu không có sự phối hợp phù hợp, một công việc có thể chiếm lĩnh các công cụ.

khắc phục điều này bằng cách cung cấp các bộ phận GPU dựa trên giới hạn người dùng và loại công việc. Ví dụ: các công việc đào tạo có nhu cầu cao có thể nhận được GPU đầy đủ. Công việc đoán sử dụng phiên bản MIG hoặc vGPU dùng chung.

Mô hình này làm tăng sự dễ sử dụng. Việc phối hợp GPU Multi-Tenancy có thể tính toán gói tốt hơn từ 30–40%. Nó giữ cho công việc được phân chia và ổn định.

Nhờ đó, các công ty có thể đào tạo nhiều mô hình AI cùng một lúc. Họ thiết lập nhanh hơn và xử lý tốt chi phí tính toán.

ZStack: Hãy để mọi công ty có đám mây riêng

Vai trò của ZStack trong Hệ sinh thái cơ sở hạ tầng AI

ZStack dẫn đầu với tư cách là nhà cung cấp phần mềm xây dựng đám mây. Nó hoạt động để làm cho nền tảng tính toán thông minh tham gia ảo hóa, AI và tự động. Quan điểm chính của nó—”Hãy để mọi công ty có đám mây riêng”—cho thấy mục tiêu của nó. Nó giúp các công ty phổ biến công nghệ đám mây tiên tiến trên toàn thế giới.

Nền tảng ZStack AIOS hàng đầu của công ty đánh dấu một bước tiến lớn trong Cơ sở hạ tầng AI (AI Infra). Nó kết hợp các công cụ điện toán, lưu trữ và mạng thành một tập hợp các lớp điều phối. Nó có kế hoạch chỉ dành cho các công việc nặng về GPU.

ZStack AIOS: Cắt GPU chính xác và lập lịch thông minh

Không giống như các nền tảng cũ sửa GPU cho máy ảo, ZStack AIOS mang đến sự phân chia GPU chính xác. Nó chia GPU vật lý thành các phần có thể chia nhỏ và có thể lập kế hoạch. Mỗi lát có thể tự nhận được. Điều này cho phép chúng tôi chạy nhiều tác vụ AI trên một GPU mà không cần trộn lẫn.

Sự phân chia cấp độ phần cứng này rất phù hợp với NVIDIA MIG và công nghệ ảo hóa GPU khác. Nó mang lại sự phân chia tốc độ thực sự cho các thiết lập AI nhiều người dùng.

AIOS cũng có một công cụ điều phối nhiều người dùng. Hiện tại, nó cung cấp các công cụ cho người dùng và công việc dựa trên nhu cầu, giới hạn và số hiệu suất. Kế hoạch dựa trên AI của nó tự động điều chỉnh GPU trong quá trình đào tạo và đoán. Nó cắt giảm thời gian nhàn rỗi và tăng lưu lượng.

Đối với các công ty đang tìm kiếm các bản dựng AI có thể phát triển, ZStack AIOS đưa ra câu trả lời đầy đủ. Nó kết hợp các kỹ năng xử lý công cụ, xem và tự sửa chữa. Nó hỗ trợ cả bộ tại chỗ và bộ hỗn hợp. Điều này giúp tạo ra các đám mây riêng phù hợp với GPU phù hợp với đám mây công cộng một cách dễ dàng.

Câu hỏi thường gặp

Câu hỏi 1: Lập lịch GPU là gì và tại sao nó lại quan trọng đối với khối lượng công việc AI?

Đáp: Lập kế hoạch GPU xử lý cách các công cụ GPU trải rộng trên các công việc AI. Nó đảm bảo phạm vi tiếp cận công bằng, công việc đồng đều và mức độ sử dụng cao. Trong ZStack AIOS, Lập lịch GPU hiện cung cấp các lát GPU cho từng công việc. Điều này mang lại tốc độ ổn định mà không cần đặt tay.

Câu hỏi 2: Chia sẻ GPU cải thiện việc sử dụng tài nguyên đám mây như thế nào?

Đáp: Chia sẻ GPU cho phép nhiều người dùng hoặc ứng dụng sử dụng một GPU cùng một lúc. Bằng cách ảo hóa các công cụ GPU, các công ty cắt giảm thời gian sử dụng phần cứng không cần thiết. Họ nâng cao sử dụng tốt. Điều này giúp ích nhiều nhất cho công việc phỏng đoán và thiết lập thử nghiệm mô hình AI.

Câu hỏi 3: MIG (GPU đa phiên bản) là gì và nó khác với việc truyền qua GPU như thế nào?

Đáp: MIG chia một GPU vật lý thành nhiều phiên bản phần cứng được chia nhỏ. Mỗi bộ phận hoạt động giống như một GPU độc lập với bộ nhớ và bộ phận tính toán được thiết lập sẵn. Truyền qua GPU cung cấp một GPU đầy đủ cho một người dùng. MIG giúp dễ dàng hơn cho việc thiết lập nhiều người dùng với các công việc hỗn hợp.

Câu hỏi 4: Multi-Tenancy hoạt động như thế nào trong môi trường ảo hóa GPU?

Trả lời: Multi-Tenancy cho phép những người dùng hoặc dự án khác nhau chia sẻ các công cụ GPU một cách an toàn. ZStack AIOS sử dụng bộ điều khiển phân chia và giới hạn dựa trên quy tắc. Nó đảm bảo mỗi người dùng nhận được một tốc độ và sự phân chia nhất định. Điều này quan trọng đối với đội ngũ AI và R&D của công ty.

Câu 5: ZStack có thể giúp doanh nghiệp chuyển đổi từ VMware sang cơ sở hạ tầng được tối ưu hóa cho GPU bằng cách nào?

Trả lời: ZStack cung cấp khung ảo hóa đầy đủ, phù hợp với VMware với các kỹ năng AI hiện tại. Thông qua ZStack AIOS, các nhóm có thể di chuyển công việc mà không có khoảng cách. Giờ đây, họ đã có khả năng điều phối GPU, tiết kiệm chi phí và sẵn sàng cho sự phát triển sau này trong lĩnh vực điện toán AI.

Hồng ngoại AI GPU

Nền tảng đám mây riêng

Nền tảng đám mây ZStack

Nền tảng ảo hóa ZStack ZSphere

ZStack HCI

Bộ lưu trữ được xác định bằng phần mềm ZStack

Quản lý trung tâm dữ liệu

Dàn nhạc biên

Nền tảng đám mây gốc

Quản lý cơ sở dữ liệu

AI riêng tư

Nền tảng cơ sở hạ tầng tiên tiến

Nền tảng đám mây ZStack

Nền tảng ảo hóa ZStack ZSphere

Theo kịch bản

Theo ngành

Tài liệu & Công cụ

Hỗ trợ & Dịch vụ

Đào tạo & Chứng nhận

Nội dung

Các giải pháp thay thế và nghiên cứu điển hình của VMware (Chương ảo hóa)

Blog