Trong thời đại trí tuệ nhân tạo phát triển nhanh chóng, mỗi bước nhảy vọt về công nghệ giống như thả một hòn đá lớn xuống hồ công nghiệp, khuấy động vô số gợn sóng. Vào ngày 20 tháng 1 năm 2025, DeepSeek-R1 đã có màn ra mắt ấn tượng, ngay lập tức khơi dậy sự phấn khích trong cộng đồng AI và trở thành trung tâm của sự chú ý. Hiệu suất vượt trội của DeepSeek-R1 đã làm dấy lên cuộc thảo luận rộng rãi và chúng tôi chắc chắn rằng bạn tò mò về nó. Vậy logic nào thúc đẩy việc tạo ra những mô hình này? Họ được đào tạo như thế nào? Có sự khác biệt nào giữa các mô hình và kịch bản nào phù hợp với từng mô hình? Hôm nay, chúng ta sẽ sử dụng ngôn ngữ đơn giản, rõ ràng nhất để nhanh chóng bộc lộ những điểm mạnh vượt trội của DeepSeek-R1.
I. Đi sâu vào các mô hình DeepSeek
Hành trình của các mô hình DeepSeek phản ánh sự kết hợp giữa đổi mới và tiến hóa, đỉnh cao là dòng R1 mạnh mẽ. Hãy chia nhỏ nó ra từng bước một.
(1) Mô hình lý luận là gì?
- Định nghĩa mô hình lý luận: Trong AI, một mô hình lý luận bắt chước tư duy logic và suy luận của con người, giống như DeepSeek-R1. Được xây dựng trên nền tảng deep learning, nó tích hợp các kỹ thuật đa miền. Nó được đào tạo trên các tập dữ liệu khổng lồ để hình thành các biểu diễn tri thức. Thông qua học tăng cường, nó cải tiến các chiến lược theo vòng lặp “thử và phản hồi”. Khi giải quyết các vấn đề phức tạp, nó tích cực khám phá và suy luận các giải pháp một cách hợp lý.
- Mô hình phi lý luận: Lấy DeepSeek-V3 làm ví dụ. Đó là một mô hình ngôn ngữ lớn dày đặc. Nó dựa nhiều hơn vào các mẫu ngôn ngữ đã học và các quy tắc thống kê để xử lý các tác vụ.
(2) Mối quan hệ giữa các mô hình DeepSeek-V3, R1, chưng cất và lượng tử hóa
Gần đây, DeepSeek đã thu hút được sự chú ý toàn cầu với R1. Chúng ta hãy theo dõi ngắn gọn dòng thời gian phát triển mô hình của DeepSeek:

- tháng 1 năm 2024: DeepSeek-V1 (67B) được ra mắt dưới dạng mô hình nguồn mở đầu tiên của DeepSeek.
- tháng 6 năm 2024: DeepSeek-V2 (236B) đã ra mắt. Nó giới thiệu hai tính năng mới: sự chú ý của nhiều người đứng đầu và Hỗn hợp các chuyên gia (MOE). Những điều này đã thúc đẩy đáng kể tốc độ lý luận và hiệu suất, mở đường cho V3.
- tháng 12 năm 2024: DeepSeek-V3 (671B) đã đến. Với các thông số lớn hơn, nó đã cải thiện khả năng cân bằng tải trên nhiều GPU.
- tháng 1 năm 2025: Dòng R1 xuất hiện:
- DeepSeek-R1-Zero (671B): Một mô hình lý luận được đào tạo với học tăng cường (RL). Nó khám phá các giải pháp một cách độc lập xung quanh các mục tiêu đã đặt ra.
- DeepSeek-R1 (671B): Kết hợp RL và tinh chỉnh có giám sát. Khả năng suy luận của nó vượt trội, gần đạt đến trình độ của mô hình O1 nguồn đóng của OpenAI. Điều đáng chú ý là chi phí vận hành của nó thấp hơn 96% so với O1.
- Dòng DeepSeek-R1-Distill-Qwen/Llama: Chúng khác nhau về kích thước tham số. Chúng là các mô hình lý luận bắt nguồn từ Qwen2.5 và Llama3, được tinh chỉnh bởi R1. Họ đáp ứng nhu cầu doanh nghiệp nhẹ.
- tháng 2 năm 2025: Nhóm Unsloth đã phát hành các mô hình dựa trên R1 được lượng tử hóa:
- Dòng DeepSeek-R1-GGUF: Định dạng GGUF nén các tham số, cắt giảm dung lượng ổ đĩa và tăng tốc độ khởi động và thời gian chạy.
- Dòng DeepSeek-R1-Distill-Qwen/Llama-Int4/Int8: Sử dụng lượng tử hóa bit thấp (4 bit hoặc 8 bit). Những phần cứng phù hợp với tài nguyên hạn chế.
DeepSeek-R1 không phải là sản phẩm của một hoặc hai phương pháp đào tạo kết hợp với nhau. Nó phát triển từ V1 qua nhiều phiên bản. Mỗi cái được xây dựng dựa trên cái cuối cùng, hợp nhất các phương pháp đào tạo khác nhau. Hơn nữa, DeepSeek-R1 còn áp dụng các nguyên tắc nguồn mở. Nó có sẵn miễn phí cho các nhà phát triển toàn cầu. Điều này làm giảm rào cản cho các nhà nghiên cứu và doanh nghiệp sử dụng các mô hình tiên tiến. Nó thúc đẩy tiến bộ AI toàn cầu. Người đoạt giải Turing và Nhà khoa học AI trưởng của Facebook Yann LeCun đã ca ngợi nó là “nguồn mở chiến thắng nguồn đóng”.
(3) Chưng cất mẫu là gì?
Kích thước tham số lớn của DeepSeek-R1 đòi hỏi nguồn lực triển khai cao. Để đưa lý luận chuỗi dài vào các mô hình nhỏ hơn, nhóm DeepSeek đã áp dụng phương pháp chưng cất. Hãy coi việc chắt lọc mô hình như một sự chuyển giao kiến thức. Hãy sử dụng DeepSeek-R1-Distill-Qwen2.5-7B làm ví dụ để giải thích quy trình một cách đơn giản:
- Lựa chọn sinh viên: Đầu tiên, hãy chọn một mô hình học sinh có năng lực như Qwen để đào tạo nâng cao khả năng suy luận. R1 mạnh mẽ đóng vai trò là “hình mẫu giáo viên”, giàu kiến thức và kỹ năng suy luận.
- Chuẩn bị: Trước khi quá trình chưng cất bắt đầu, hãy thu thập nhiều dữ liệu huấn luyện. Dữ liệu này tạo thành nền tảng học tập. Sau đó, đặt cả mô hình giáo viên R1 và mô hình học sinh Qwen vào thiết lập đào tạo.
- Quá trình đào tạo: Mô hình giáo viên R1 xử lý dữ liệu đầu vào và tạo ra đầu ra. Những kết quả đầu ra này phản ánh khả năng nắm bắt và hiểu biết về các tính năng dữ liệu. Trong khi đó, mô hình sinh viên Qwen học từ dữ liệu thô. Nó cũng tính toán khoảng cách giữa đầu ra của nó và R1 thông qua hàm mất mát. Giống như một học sinh sao chép logic giải quyết vấn đề của giáo viên, Qwen điều chỉnh các tham số của mình để thu hẹp khoảng cách này. Ví dụ: trong các nhiệm vụ phân loại, R1 đưa ra phân bố xác suất giữa các danh mục. Qwen cố gắng bắt chước những điều này, tiếp thu kiến thức và cách lập luận của R1. Sau nhiều vòng huấn luyện, khả năng suy luận của Qwen tiến bộ rõ rệt. Điều này tạo ra một mô hình Qwen có khả năng suy luận.
Chưng cất mô hình mang lại một số lợi ích. Từ quan điểm chi phí và hiệu quả, các mô hình chưng cất nhỏ gần như có thể sánh ngang với hiệu suất của các mô hình lớn. Điều này cắt giảm chi phí triển khai doanh nghiệp và tăng tốc độ lý luận. Nó cũng làm giảm sự phụ thuộc vào tài nguyên máy tính khổng lồ. Tuy nhiên, vì về cơ bản nó vẫn là Qwen hoặc Llama nên cần có sự hiểu biết và thử nghiệm cẩn thận để đáp ứng nhu cầu kinh doanh trong thế giới thực.
Một kỹ thuật quan trọng khác để vận hành mô hình hiệu quả là “lượng tử hóa” mà chúng ta sẽ khám phá tiếp theo.
II. Tổng quan về Lượng tử hóa: Cân bằng hiệu suất và hiệu quả
(1) Tại sao các mô hình trong hướng dẫn trực tuyến chỉ có 4,7GB?
Như đã đề cập, DeepSeek-R1 thực sự là phiên bản có thông số 671B (trên mạng thường gọi là phiên bản “toàn năng”). Tuy nhiên, nhiều hướng dẫn hướng dẫn người dùng tải xuống Qwen2.5 7B đã được chắt lọc và tinh chỉnh thông qua “ollama run deepseek-r1”. “Trí thông minh” của phiên bản này khác rất nhiều so với mô hình trên trang web chính thức của DeepSeek. Hãy nhìn kỹ - nó chỉ có 4,7GB. Điều này cho thấy lượng tử hóa nặng. Việc nén như vậy càng làm suy yếu “trí thông minh” của nó.
(2) Lượng tử hóa là gì?
Lượng tử hóa chuyển đổi trọng số và kích hoạt của mô hình từ độ chính xác cao (ví dụ: FP32, BF16) sang độ chính xác thấp (ví dụ: INT8 hoặc INT4). Bằng cách giảm độ rộng bit cho mỗi tham số, nó sẽ giảm nhu cầu lưu trữ và tính toán. Các mô hình lượng tử hóa cắt giảm nhu cầu sử dụng và xử lý bộ nhớ. Điều này cho phép triển khai mô hình lớn trên GPU tiêu chuẩn hoặc thậm chí cả CPU. Tuy nhiên, lượng tử hóa quá mức có thể gây tổn hại đến độ chính xác, đặc biệt đối với các nhiệm vụ cần tính toán và lý luận chính xác.
(3) Tại sao lại khuyên dùng BF16 và INT8?
Đối với các mô hình suy luận, kết quả đầu ra thường bao gồm các chuỗi mã thông báo dài và yêu cầu độ chính xác cao. Vì vậy, nên lượng tử hóa FP16 hoặc INT8. Những phương pháp này làm giảm nhu cầu tài nguyên trong khi vẫn duy trì được hiệu suất của mô hình.
(4) Mối liên hệ giữa mức độ lượng tử hóa và mất độ chính xác
Lưu ý rằng các công cụ lượng tử hóa mới (ví dụ: Llama.cpp) cung cấp khả năng xử lý tinh chỉnh. Ví dụ: họ áp dụng độ chính xác khác nhau (4 bit, 6 bit, 32 bit) cho các lớp khác nhau. Điều này tạo ra các tùy chọn như Q4_K_M hoặc Q6. Tuy nhiên, vấn đề vẫn là cân bằng giữa độ chính xác, tốc độ và việc sử dụng tài nguyên.
(5) Ứng dụng trong các mô hình DeepSeek
Các mô hình ban đầu của DeepSeek rất lớn. Ngay cả ở Int4, nhu cầu bộ nhớ vẫn ở mức cao. Kiến trúc và mô hình lý luận của MoE đặt ra những thách thức về lượng tử hóa. Các phương pháp nâng cao như lượng tử hóa hỗn hợp 1,58 hoặc 2,51 hoặc lượng tử hóa động có thể hữu ích. Chúng tôi sẽ trình bày chi tiết về tác dụng và lượng tử hóa bối cảnh của chúng trong các bài viết sau.
Tuy nhiên, ngay cả sau khi lượng tử hóa, trí nhớ vẫn có thể bị thiếu hụt. Hoặc đầu ra có thể bị cắt bớt trong thời gian chạy. Điều này gắn liền với một yếu tố mô hình quan trọng khác: “cửa sổ ngữ cảnh”.
III. Tầm quan trọng của cửa sổ ngữ cảnh và ước tính bộ nhớ
(1) Tại sao một số câu trả lời mẫu bị cắt bỏ?
Mô hình dừng lại trước khi kết thúc quá trình suy luận. Đầu ra của nó đạt đến giới hạn “độ dài tối đa”. cho tìm kiếm sâuAPI chính thức của, chuỗi suy luận tối đa là 32K, với đầu ra tối đa là 8K. Mô hình ban đầu hỗ trợ ngữ cảnh lên tới 164K—tổng cộng khoảng 100.000 đến 160.000 từ. Nhưng bối cảnh dài như vậy sẽ tiêu tốn nguồn tài nguyên khổng lồ. Vì vậy, một số API giới hạn đầu ra và ngữ cảnh tối đa. Các mô hình không suy luận cũ hơn có thể quản lý bằng ngữ cảnh 4K cho mỗi cuộc trò chuyện. Tuy nhiên, các mô hình lý luận sử dụng ngữ cảnh để “suy nghĩ”. Do đó, 4K thường không đủ cho một phiên, khiến người dùng khó chịu.
(2) Cửa sổ ngữ cảnh của Model là gì?
Cửa sổ ngữ cảnh là số lượng mã thông báo tối đa mà một mô hình có thể xử lý trong một lần lý luận. Tỷ lệ mã thông báo trên từ thay đổi đôi chút tùy theo mô hình. Ngữ cảnh dài hơn cho phép người mẫu nhớ lại và nắm bắt được nhiều văn bản hơn. Điều này quan trọng đối với việc tạo văn bản dài và các tác vụ phức tạp, như tạo mã quy mô lớn hoặc phân tích nội dung chuyên nghiệp.
Tác động của độ dài ngữ cảnh đến hiệu suất mô hình
- Hiệu ứng ngữ cảnh ngắn: Mô hình có thể quên đoạn hội thoại ban đầu, gây ra các câu trả lời không nhất quán hoặc bị cắt ngắn.
- Nhu cầu mô hình lý luận: Lý luận yêu cầu thể hiện quá trình suy nghĩ, tăng sản lượng mã thông báo. Bối cảnh dài hơn sẽ cải thiện hiệu suất.
(3) Cách ước tính mức sử dụng bộ nhớ
Việc sử dụng bộ nhớ mô hình bao gồm:
- Thông số mô hình: Gắn với số lượng tham số và độ chính xác.
- Bộ đệm KV: Được liên kết với độ dài ngữ cảnh, kích thước lô và mức độ chú ý. Nó cũng thay đổi tùy theo cách xử lý bộ nhớ của khung lý luận.
- Kết quả trung gian: Liên quan đến cấu trúc mô hình và dữ liệu đầu vào.
(5) Tổng quan về nhu cầu bộ nhớ cho các mô hình DeepSeek theo kích thước và lượng tử hóa
Đây là những ước tính sử dụng độ chính xác BF16. GPU hỗ trợ FP8 có thể khác nhau. Việc sử dụng ngữ cảnh được tính toán thông qua llama.cpp; các khung như vllm có thể sử dụng nhiều hơn. Các yêu cầu đồng thời cần thêm KV Cache mỗi phiên.
IV. Triển khai DeepSeek-R1-Distill-Qwen-7B trên Nền tảng ZStack AIOS
(1) Môi trường phần cứng
- Loại GPU: NVIDIA GPU, 24GB * 2 memory, 35.58 TFLOPS@BF16
- CPU: Triển khai VM, phân bổ 8 vCPU
- Bộ nhớ: Triển khai VM, phân bổ 32GB RAM
- hệ điều hành: ZStackMẫu tích hợp AIOS, hệ thống Helix8.4r
(2) Các bước triển khai
- Thiết lập môi trường: Cài đặt ZStack AIOS. Đảm bảo hệ thống đáp ứng nhu cầu thời gian chạy.
- Triển khai bằng một cú nhấp chuột:
Sử dụng ZStack AIOS để chọn và tải mô hình.
b. Chỉ định GPU và tính toán thông số kỹ thuật để triển khai.
- Chạy thử:
Hãy thử trò chuyện trong hộp demo hoặc liên kết qua API tới các ứng dụng khác.
(3) Chỉ số hiệu suất
- Sử dụng bộ nhớ: Sau khi triển khai, cần khoảng 41,6GB. Điều này phù hợp với mong đợi (mã lý luận sử dụng ~95% bộ nhớ cho dịch vụ).
Hiệu suất thực tế thay đổi tùy theo phần cứng và mức độ tối ưu hóa. Trong thử nghiệm này, với 16 người dùng đồng thời, thông lượng đạt mức cao nhất. Mỗi người dùng nhận được ~42 mã thông báo/giây, với độ trễ của mã thông báo đầu tiên dưới 0,2 giây.
V. Đánh giá khả năng của mô hình: DeepSeek-R1-Distill-Qwen-7B
(1) So sánh điểm MMLU
MMLU (Hiểu ngôn ngữ đa nhiệm lớn) đánh giá khả năng hiểu đa nhiệm. Chúng tôi đã so sánh điểm MMLU của mô hình 7B trước và sau quá trình chưng cất.
Sau quá trình chưng cất, điểm số giảm xuống và thời gian lý luận kéo dài đáng kể.
(2) Kiểm tra khả năng suy luận logic
Chúng tôi đã thử nghiệm các vấn đề logic cổ điển:
- Câu đố số: Mô hình chắt lọc đã giải quyết chính xác các câu hỏi về mẫu phức tạp. Bản gốc bị tụt lại phía sau.
Ví dụ: “Xem xét dãy: 2, 3, 5, 9, 17, 33, 65,… Số tiếp theo là gì?”
- So sánh kích thước: Để so sánh nhiều điều kiện, mô hình chưng cất đã suy luận chính xác.
Ví dụ: "Trong một lớp: Anna > Betty; Charlie không cao nhất hay thấp nhất; David < Charlie; Betty không thấp nhất. Ai cao nhất?"
- Nhiệm vụ lý luận: Nó hiển thị các bước rõ ràng, cho phép kiểm tra quy trình. Kết quả đáp ứng mong đợi.
Ví dụ: "Năm ngôi nhà, năm màu sắc, năm quốc tịch, đồ uống độc đáo, thuốc lá, thú cưng. Manh mối: Người Anh ở ngôi nhà màu đỏ, người Thụy Điển có một con chó, v.v. Ai sở hữu con cá?"
(3) Tạo mã và SQL
- Tạo mã: Mô hình chắt lọc đã cải thiện độ chính xác logic và cú pháp Python.
Ví dụ: “Tạo lớp DataStream cho dữ liệu thời gian thực với tính năng theo dõi phần tử k, add(value) và getMedian() trong thời gian O(log k).”
- Tạo SQL: Đối với các tác vụ chuyển ngôn ngữ sang SQL tự nhiên, các truy vấn của mô hình được chắt lọc sẽ chính xác hơn và sẵn sàng cho cơ sở dữ liệu hơn.
Ví dụ:
- “Đếm tổng kích thước mô hình (GB) trên mỗi ModelCenter trong 30 ngày qua, >1GB, sắp xếp theo kích thước giảm dần.”
- “Tính toán ModelServices mới hàng tuần, hiển thị ngày bắt đầu, số lượng và tổng tích lũy trong 12 tuần qua.”
(4) Thử nghiệm kịch bản RAG (Thế hệ tăng cường truy xuất)
Chúng tôi đã thử nghiệm RAG với báo cáo DeepSeek V3 và R1 (22 trang, 8802 từ; 53 trang, 22330 từ) trong cơ sở kiến thức Dify của AIOS. Những điều này không có trong dữ liệu đào tạo trước, buộc các câu trả lời phải dựa trên mức độ hiểu. Không có chỉnh sửa kịp thời; Bối cảnh 8K; cài đặt mặc định. Các câu trả lời được tính trung bình trên nhiều truy vấn.
Nhờ có ZStack Môi trường được tối ưu hóa của AIOS, vector hóa tài liệu và phản hồi nhanh chóng. Kết quả cho thấy:
- Kết luận: Mô hình chắt lọc 7B thường có cấu trúc đầu ra tốt hơn (ví dụ: dấu đầu dòng) so với mô hình ban đầu. Độ chính xác thực tế là tương tự. Độ dài câu trả lời tăng ~20%—dưới mức mong đợi, có thể là do các mô hình suy luận giới hạn bối cảnh 8K. Thời gian phản hồi tăng ~70%, làm tăng chi phí.
VI. Các trường hợp sử dụng và ưu điểm của Model 7B chưng cất
(1) Kịch bản phù hợp
- Cài đặt giới hạn tài nguyên: Chạy trên GPU hoặc CPU tiêu chuẩn với chi phí triển khai thấp.
- Tương tác thời gian thực: Suy luận nhanh phù hợp với chatbot và các ứng dụng tương tự.
- Nhiệm vụ cần thiết về lý luận: Vượt trội hơn bản gốc về logic, mã và các tác vụ tương tự.
(2) Ưu điểm
- Chi phí thấp: Triển khai và chạy rẻ hơn so với các phiên bản có đầy đủ thông số.
- Tốc độ nhanh: Suy luận nhanh đáp ứng nhu cầu thời gian thực.
- Triển khai linh hoạt: Phiên bản lượng tử hóa hoạt động trên nhiều phần cứng khác nhau.
(3) Hạn chế
- Lợi nhuận có giới hạn: Thiếu các mô hình lớn cho các nhiệm vụ phức tạp.
- RAG vừa vặn: Điểm MMLU cho thấy độ chính xác thực tế giảm sau khi chưng cất. Các thử nghiệm RAG cũng lặp lại điều này – lý luận quá mức có thể đi chệch khỏi sự thật. Ngoài ra, thời gian phản hồi lâu hơn có thể không phù hợp với RAG.
VII. Triển vọng: Chiến lược triển khai cho các mô hình tham số lớn hơn
Trong các bài viết tiếp theo, chúng ta sẽ khám phá:
- Mô hình chưng cất lớn hơn: Giống như triển khai và hiệu ứng DeepSeek-R1-Distill-Qwen-32B.
- Mô hình gốc được lượng tử hóa: Triển khai mô hình quy mô 671B với nguồn lực hạn chế.
- Chiến lược hoàn toàn chính xác: Tối đa hóa các mô hình lớn trong thiết lập hiệu suất cao.
Bằng cách so sánh kích thước và độ chính xác, chúng tôi mong muốn cung cấp các kế hoạch triển khai chi tiết cho doanh nghiệp. Điều này sẽ giúp các ngành áp dụng các mô hình ngôn ngữ lớn một cách nhanh chóng, mở ra giá trị kinh doanh.
Kết luận
Bắt đầu với sự phát triển của DeepSeek, bài viết này khám phá vai trò của quá trình chắt lọc và lượng tử hóa trong quá trình triển khai. Qua dữ liệu và thử nghiệm, chúng tôi thấy mô hình 7B chắt lọc có lý luận cân bằng và chi phí hợp lý. Chúng tôi hy vọng điều này cung cấp những hiểu biết hữu ích cho việc sử dụng mô hình ngôn ngữ lớn của doanh nghiệp. Bạn tò mò về việc triển khai và đánh giá mô hình 32B hoặc 671B? Hãy theo dõi các bài viết tiếp theo của chúng tôi!