Nền tảng đám mây ZStack
Triển khai một máy chủ với đầy đủ tính năng, miễn phí trong một năm
Các chương trình AI hiện đại đã chuyển từ thí điểm thăm dò sang quy trình sản xuất với SLA và mục tiêu chi phí nghiêm ngặt. Khi các cụm mở rộng quy mô, hai vấn đề liên tục xuất hiện: năng lực bị mắc kẹt và thời gian xếp hàng không thể đoán trước. Khi các GPU phân đoạn nằm rải rác trên các nút, các công việc đào tạo đa GPU không thể phù hợp; khi vị trí bỏ qua cấu trúc liên kết kết nối, các bộ tăng tốc đắt tiền sẽ dừng I/O. Lập kế hoạch GPU thông minh giải quyết cả hai vấn đề này bằng cách sắp xếp các hình dạng công việc với các ngăn phù hợp, tôn trọng cấu trúc liên kết và phản hồi các tín hiệu thời gian chạy vào vị trí và tự động điều chỉnh quy mô. Lợi ích mang lại là thông lượng cao hơn, chu kỳ lặp lại ổn định hơn và chi phí cho mỗi thử nghiệm dễ dự đoán hơn.
Giữ mục tiêu đơn giản và có thể đo lường được: Phát trực tiếp mức sử dụng Bộ xử lý đa xử lý trên các GPU đang hoạt động, thời gian xếp hàng trung bình và phân vị thứ 95 trong điều kiện tải cao điểm và chi phí cho mỗi lần chạy thành công. Gắn chúng với SLO và xem xét chúng hàng tuần; coi sự hồi quy là sự cố.
Sự phân mảnh xảy ra khi các lát cắt nhỏ được trải mỏng; “gần như vừa vặn” trở thành “không thể bắt đầu”. Băng thông bộ nhớ và kết nối không khớp sẽ âm thầm điều chỉnh hoạt động đào tạo. Quá trình tìm nạp và tập dữ liệu không được thực hiện sẽ lãng phí những phút GPU quý giá. Bộ lập lịch thông minh và bộ nhớ đệm ấm sẽ thu hẹp những khoảng trống này.
Vị trí nhận biết cấu trúc liên kết và các chính sách xếp hàng rõ ràng thúc đẩy nhiều thử nghiệm hơn thông qua cùng một phần cứng. Các nhà phát triển vận chuyển nhanh hơn, bộ phận tài chính nhận thấy mức chi tiêu ổn định hơn và các nhóm nền tảng có thể chứng minh năng lực bằng những con số cứng nhắc.
Ngăn xếp cơ sở hạ tầng AI hiệu quả sẽ phân lớp rõ ràng và xử lý việc lập kế hoạch như một hợp đồng giữa mặt phẳng điều khiển và mặt phẳng dữ liệu. Điều quan trọng là tạo ra sự không đồng nhất trừu tượng mà không che giấu các tín hiệu quan trọng đối với vị trí.
Ở cơ sở: máy gia tốc, máy chủ và kết nối. Ở trên chúng: ảo hóa để thuê an toàn, sau đó là các thùng chứa cho công việc đóng gói. Dịch vụ dữ liệu và tạo tác cung cấp dữ liệu cho việc đào tạo và suy luận. Trên hết: phục vụ, khả năng quan sát và quản trị. Mỗi lớp chỉ hiển thị vừa đủ siêu dữ liệu—mô hình GPU và bộ nhớ, đảo NVLink, vị trí tập dữ liệu, thẻ chính sách—để người lập lịch trình có thể đưa ra các quyết định có độ chính xác cao.
Mặt phẳng điều khiển sở hữu quyền tiếp nhận, mức độ ưu tiên, hạn ngạch và chính sách; mặt phẳng dữ liệu thực thi, báo cáo tình trạng và xuất các số liệu chi tiết. Tránh các tập lệnh nút cục bộ ẩn âm thầm ghi đè các quyết định được đưa ra ở thượng nguồn—làm cho hành vi lập lịch trình trở nên rõ ràng trong hàng đợi và chính sách.
Phân bổ toàn bộ thiết bị vẫn là lựa chọn tốt nhất cho hoạt động đào tạo quy mô lớn làm bão hòa băng thông bộ nhớ. Các chế độ phân số—phân vùng cứng giống MIG hoặc chia sẻ bối cảnh kiểu MPS—có ích cho việc suy luận và các tinh chỉnh nhỏ. Cắt thời gian hoạt động cho các nhiệm vụ đánh giá bùng nổ. Trong ZStack Cloud, quản trị viên có thể hiển thị GPU dưới dạng thiết bị vật lý (pGPU) hoặc thiết bị ảo (vGPU) và chuyển đổi phạm vi chia sẻ trên mỗi thiết bị, ánh xạ tự nhiên tới các dịch vụ theo lớp cho người thuê và khối lượng công việc khác nhau. Trên trang Thiết bị GPU, bạn sẽ thấy danh sách pGPU và vGPU, trạng thái, tệp đính kèm và thông tin chi tiết trên mỗi thiết bị như mức sử dụng, bộ nhớ, nhiệt độ và nguồn điện—các tín hiệu hữu ích cho vị trí thông minh.
Xác định một nhóm nhỏ các lớp GPU (ví dụ: A100-full, A100-MIG-1g, L4-fragal) với QoS và hạn mức rõ ràng. Các dự án yêu cầu các lớp chứ không phải ID thiết bị thô, đơn giản hóa tính công bằng và phản hồi. Trong trường hợp việc cách ly dữ liệu là tối quan trọng, hãy giữ người thuê ở các ranh giới VM hoặc nút riêng biệt và chỉ sử dụng các chế độ chia sẻ trong các rào chắn đó.
Kubernetes là một loại vải kiểm soát mạnh mẽ khi các nguyên thủy của nó được điều chỉnh cho AI.
Công việc khai báo các yêu cầu về GPU, CPU, bộ nhớ và bộ nhớ tạm thời; mối quan hệ và vết nhơ điều khiển nhóm đến các nút tương thích; các hạn chế phân bố cấu trúc liên kết cân bằng các điểm nóng. Bộ điều khiển tiếp nhận có thể tự động đưa vào các giá trị mặc định để người dùng tập trung vào logic mô hình thay vì các chi tiết vụn vặt YAML.
Không phải tất cả các liên kết đều như nhau. Vị trí giữ các xếp hạng song song tensor trên cùng một đảo NVLink và căn chỉnh các trang CPU với nút NUMA bên phải thường mang lại mức tăng thông lượng hai chữ số. Hiển thị các nhóm NVLink/PCIe thông qua nhãn nút và để bộ lập lịch thiên về các cấp bậc cùng vị trí.
Đào tạo phân tán sẽ thất bại nếu chỉ một phần công việc bắt đầu. Lập kế hoạch băng đảng sẽ giữ tài nguyên cho đến khi tất cả các cấp bậc có thể khởi động. Việc lấp đầy cơ hội thực hiện các công việc nhỏ hơn trong khi một nhóm chờ đợi. Ưu tiên và ưu tiên đảm bảo quá trình đào tạo lại chặn phát hành không bị chết đói, miễn là bạn kiểm tra các công việc chạy trong thời gian dài.
Tính song song của dữ liệu ủng hộ các lô lớn; các mô hình phân chia song song tensor và pipe không vừa với bộ nhớ; Kiến trúc chuyên gia (MoE) được hưởng lợi từ vị trí nhận biết phân đoạn. Cung cấp mẫu cho từng chiến lược để người dùng chọn chiến lược thay vì tập hợp chúng lại từ đầu.
Suy luận cần độ trễ thấp và ổn định; đào tạo chấp nhận hàng đợi nhưng nhu cầu sử dụng cao. Phân tách các hàng đợi và chính sách phù hợp, bảo vệ từng hàng đợi khỏi các kiểu lưu lượng truy cập của nhau.
Năng lực là một kế hoạch sống. Tự động hóa quy mô phải dự đoán chứ không chỉ đơn thuần là phản ứng; độ tin cậy sẽ giảm thiểu sự gián đoạn mà không tích trữ GPU dự phòng.
Thiết kế các nhóm nút dưới dạng các thùng phản ánh hồ sơ công việc: GPU đơn để suy luận trực tuyến, các thùng 4/8-GPU dành cho các nhóm đào tạo, nhóm phân đoạn cho tiền phạt. Công cụ chia tỷ lệ tự động thêm các hình dạng phù hợp giúp giảm phân mảnh và cải thiện khả năng bắt đầu "thử lần đầu".
Quy mô suy luận không trạng thái theo chiều ngang; sử dụng VPA để xử lý trước và sau ổn định. Duy trì một biên độ bộ đệm khung nhỏ trên khối lượng công việc GPU để tránh hiện tượng OOM trong các đợt bùng nổ vi mô.
Độ sâu hàng đợi, tỷ lệ đến của công việc và thời gian chạy trung bình cho phép mở rộng quy mô dự đoán giúp mang lại năng lực trực tuyến ngay trước mốc nước cao. Kết hợp với bộ hẹn giờ hạ nhiệt và cửa sổ hàng loạt để khuyến khích việc đóng gói thùng rác.
Sử dụng Ngân sách gián đoạn nhóm cho các công việc nhiều cấp bậc, quy trình làm việc nối dây/cống cho máy chủ GPU và thăm dò tình trạng thiết bị để cách ly nhanh chóng các bộ tăng tốc không ổn định. Với tính năng kiểm tra điểm, quyền ưu tiên trở thành sự cố thay vì ngừng hoạt động.
GPU rất nhanh; cho chúng ăn.
Giai đoạn tập dữ liệu nóng gần máy gia tốc. Phân chia các tập dữ liệu lớn và tìm nạp trước không đồng bộ. Sử dụng các kho lưu trữ tạo tác có thể định địa chỉ theo nội dung để bộ nhớ đệm vẫn đáng tin cậy trên các không gian tên và nhóm.
Khi các tập thể chiếm ưu thế, các loại vải có độ trễ thấp cũng quan trọng như số lượng GPU. Kết hợp vị trí nhận biết địa phương với các dung sai giúp ngăn chặn các công việc nhạy cảm khỏi các liên kết chậm. Xác thực bằng điểm chuẩn vi mô trên các kích thước thư bạn thực sự sử dụng.
Hình ảnh mỏng, gương đăng ký ấm và trọng lượng tải chậm giúp giảm thiểu hình phạt khi khởi động nguội. Đối với suy luận canary, hãy chạy các nhóm ấm nhỏ chấp nhận lưu lượng truy cập ngay lập tức trong khi phần còn lại sẽ tăng quy mô.
ZStack tập trung vào việc biến các đám mây riêng và đám mây lai trở nên thiết thực cho các nhóm muốn có hiệu suất, kiểm soát dữ liệu và khả năng dự đoán chi phí theo điều kiện riêng của họ. Trong lĩnh vực GPU, nền tảng ảo hóa đầu tiên cho phép bạn hiển thị rõ ràng các bộ tăng tốc để điều phối vùng chứa trong khi vẫn duy trì sự cách ly ở ranh giới VM.
ZStack mô tả lớp lập lịch AI hỗ trợ kim loại trần, máy ảo và bộ chứa, với các chiến lược phân chia GPU và binpack/trải rộng chi tiết — được thiết kế để hợp nhất các bộ tăng tốc không đồng nhất trong một mặt phẳng điều khiển và thúc đẩy mức sử dụng cao hơn. Nó nhấn mạnh việc giám sát tài nguyên theo thời gian thực và lập kế hoạch động giữa các cụm để giảm chi phí và cải thiện khả năng phục hồi.
Đám mây ZStack tách pGPU và vGPU trong chế độ xem Thiết bị GPU và hiển thị các số liệu trên mỗi thiết bị—mức sử dụng, bộ nhớ, nhiệt độ, năng lượng—để thúc đẩy lập lịch GPU thông minh trên Ngăn xếp cơ sở hạ tầng AI của bạn. Người vận hành xác định các dịch vụ GPU dựa trên lớp, chia sẻ phạm vi trên toàn cầu hoặc theo dự án và chọn thông qua để đào tạo cần nhiều băng thông hoặc ảo hóa thành nhiều vGPU để suy luận dày đặc, nhiều người thuê. Với ZSphere làm cơ sở ảo hóa và Zaku xử lý việc điều phối và tự động điều chỉnh Kubernetes, vị trí nhận biết cấu trúc liên kết và các chính sách QoS sẽ mang lại mức sử dụng cao hơn và thời gian xếp hàng ngắn hơn.
ZStack Zaku là nền tảng Kubernetes hiển thị pGPU và vGPU dưới dạng các lớp, hợp nhất các hoạt động đa cụm và cắt giảm khởi động nguội.
Nhiều nhóm bắt đầu với cách ly tập trung vào VM để đào tạo nhạy cảm với dữ liệu, sau đó chuyển dần sang các vùng chứa để có độ co giãn. ZStack hỗ trợ cả hai đường dẫn: nó ghi lại quá trình ảo hóa GPU NVIDIA và AMD vào nhóm vGPU và đề xuất các phiên bản trình điều khiển để các tính năng giám sát và vGPU hoạt động bình thường, đồng thời nó hiển thị các thông số kỹ thuật của thiết bị trung gian (MDEV) thông qua CLI—tiện dụng khi xây dựng các dịch vụ phân đoạn phù hợp với hình dạng công việc. Quá trình triển khai thực tế cũng cho thấy khả năng phân tích video nhạy cảm với độ trễ được truyền qua GPU, được củng cố bằng mô-đun dự phòng và DR cho các dịch vụ suy luận dài hạn.
Đáp: Đó là sự kết hợp giữa các bộ tăng tốc và máy chủ, ảo hóa và bộ chứa, dịch vụ dữ liệu, phân phối và quản trị được tập hợp thành một nền tảng để đào tạo và suy luận. Lập lịch GPU cải thiện nó bằng cách khớp các hình dạng công việc với các ngăn bên phải, tôn trọng cấu trúc liên kết kết nối và cung cấp dữ liệu giám sát vào vị trí. Trên ZStack, người vận hành có thể xem mức sử dụng pGPU/vGPU, bộ nhớ, nhiệt độ và nguồn điện—các tín hiệu giúp chính sách giảm phân mảnh và thời gian nhàn rỗi.
Đáp: Bộ chia tỷ lệ tự động biến áp suất hàng đợi thành công suất phù hợp vào đúng thời điểm. Nếu các nhóm nút của bạn được định hình theo các mẫu phổ biến—các thùng GPU đơn để suy luận, các thùng 4/8-GPU để đào tạo, các nhóm phân đoạn dành cho tiền phạt—các nút mới sẽ sẵn sàng để đóng gói công việc một cách chặt chẽ, giảm thời gian xếp hàng và nâng cao mức sử dụng hiệu quả.
Trả lời: Chia sẻ GPU hiển thị một phần của thiết bị cho nhiều công việc. Các phân vùng cứng (giống MIG) và ngữ cảnh MPS mang lại mật độ cao và QoS ổn định cho suy luận và các điều chỉnh nhỏ. Việc cắt giảm thời gian có tác dụng cho các đánh giá bùng nổ. Việc đào tạo đòi hỏi nhiều bộ nhớ ưu tiên các thiết bị đầy đủ để có băng thông và tính xác định. Trong ZStack, quản trị viên có thể ảo hóa pGPU thành nhiều vGPU và đặt chế độ chia sẻ trên mỗi thiết bị để có ranh giới rõ ràng cho nhiều người thuê.
Đáp: Tính song song của dữ liệu phù hợp với cấu trúc liên kết nhưng muốn thông lượng lưu trữ ổn định; song song tensor và đường ống thích GPU trên cùng một đảo NVLink; tính song song của chuyên gia được hưởng lợi từ vị trí nhận biết phân đoạn. Mã hóa những gợi ý này dưới dạng nhãn và quy tắc chống mối quan hệ, đồng thời sử dụng lịch trình nhóm để tất cả các cấp bậc bắt đầu cùng nhau.
Đáp: Xem mức sử dụng SM, thời gian xếp hàng (trung vị và P95) và chi phí mỗi giờ GPU cho mỗi lần chạy hoàn thành. Thêm các số liệu giám sát GPU như mức sử dụng bộ nhớ, nguồn điện và I/O PCIe nếu có; những điều này xác nhận xem các công việc có liên quan đến tính toán hay liên kết với I/O và hướng dẫn các quyết định về hình dạng thùng và cấu trúc liên kết.