webpack và thay thế chuỗi huggingface - tin tuc the thao trong nuoc
Deepseek-v3 và deepseek-r1 là những mô hình ngôn ngữ lớn do công ty DeepSeek phát triển, với kết quả tạo ra gần như đạt đến mức đỉnh cao ở quy mô quốc gia và toàn cầu. Điều đặc biệt hơn là chúng hoàn toàn miễn phí và mã nguồn mở. Phải nói rằng, tôi thực sự kính phục công ty DeepSeek cùng nhà sáng lập Liang Wenfeng. Là một cựu sinh viên cùng trường, tôi cảm thấy vô cùng tự hào nhưng cũng không khỏi xấu hổ khi nhận ra mình còn kém xa so với họ. Trước đây, tôi từng tìm hiểu về Huanfang Quantitative – một công ty kín tiếng nhưng rất tài trợ, chuyên tuyển dụng các kỹ sư full-stack. Có lẽ điều này không phù hợp với tôi, và đối với DeepSeek hiện tại thì càng xa vời hơn.
Từ thông tin công khai mà tôi có được, hầu hết đội ngũ của DeepSeek đều là những tiến sĩ xuất sắc từ các trường đại học hàng đầu như Thanh Hoa và Bắc Kinh. Trong lĩnh vực trí tuệ nhân tạo, tôi chỉ mới tiếp xúc sơ lược với một số công việc liên quan đến học máy, còn về các mô hình lớn tiên tiến nhất thì vẫn còn khá nhiều khoảng cách để bù đắp. Tuy nhiên, ngay cả khi không phải là chuyên gia hoàn toàn, tôi vẫn có thể đưa ra một số ý kiến bán chuyên nghiệp.
Ví dụ như việc DeepSeek sử dụng một lượng nhỏ card đồ họa để huấn luyện mô hình. Điều này chỉ là tương đối nếu so sánh với Grok 3 mới nhất, vốn cần tới 200 nghìn card GPU. So với con số đó, DeepSeek rõ ràng đã tiết kiệm được rất nhiều tài nguyên. Họ sử dụng tin tuc the thao trong nuoc 2048 card H800 GPU, và chi phí tổng thể cho việc huấn luyện ước tính vào khoảng 5,6 triệu đô la Mỹ. Giá mỗi card H800 dao động từ 200 nghìn đến 400 nghìn nhân dân tệ, và do các lệnh cấm vận, giá có thể tăng lên mức cao hơn. Với giá khởi điểm là 200 nghìn nhân dân tệ, riêng chi phí cho card đã lên tới 4 tỷ nhân dân tệ – điều mà không phải công ty nào cũng có khả năng gánh chịu. May mắn thay, trước đây Huanfang đã sử dụng học máy trong giao dịch định lượng, nên họ đã có sẵn kho dự trữ card GPU và khả năng sinh lời mạnh mẽ.
Tiếp theo, với tình trạng hỗn loạn của các dịch vụ DeepSeek trên thị trường hiện nay, phần lớn các dịch vụ tự xưng sử dụng DeepSeek thường không đáng tin cậy. Do sự phổ biến của nó, hệ thống chính thức của DeepSeek luôn trong tình trạng giới hạn lưu lượng truy cập. Vì vậy, rất nhiều đơn vị đã cố gắng "ăn theo" bằng cách sử dụng API của DeepSeek hoặc thậm chí chỉ triển khai phiên bản chưng cất của mô hình. Ví dụ điển hình là việc triển khai mô hình kích thước đầy đủ (full-size model) yêu cầu tới 2000 card H800 để duy trì tốc độ xử lý 100qps. Đây chắc chắn không phải là điều mà bất kỳ công ty nào cũng có thể đáp ứng được. Ngoài ra, việc tiêu thụ năng lượng khổng lồ cũng là một vấn đề đáng lo ngại. Chỉ để chạy mô hình cơ bản với dung lượng file gần 700GB, bạn sẽ cần ít nhất 9 card H800 GPU với bộ nhớ 80GB.
Với mục đích sử dụng cá nhân tại địa phương, hầu hết chúng ta chỉ có thể sử dụng phiên bản mô hình chưng cất với kích thước nhỏ hơn. Hiệu suất của chúng chắc chắn không thể so sánh với phiên bản đầy đủ được cung cấp bởi DeepSeek hay các công ty lớn khác như Tencent. Trên mạng internet, có rất nhiều video và bài viết hướng dẫn cách triển khai Deepseek-R1 cục bộ, nhưng phần lớn đều sử dụng các phiên bản chưng cất vì tin tức the thao bóng đá các card GPU thông thường như RTX 5090 chỉ có 32GB VRAM, không đủ để tải mô hình đầy đủ. Tính toán sơ bộ cho thấy bạn sẽ cần khoảng 22 card RTX 5090 để đáp ứng nhu cầu, điều mà hiếm người dùng cá nhân nào có thể làm được. Hơn nữa, PC thông thường có giới hạn về số lượng kênh PCIe, khiến việc lắp đặt 22 card trở thành một thách thức lớn.
Chênh lệch giữa mô hình kích thước đầy đủ 671B và các phiên bản nhỏ hơn như 7B hay 14B giống như sự khác biệt giữa video 480P và 4K. Mặc dù cả hai đều có thể xem được, nhưng chất lượng hiển nhiên là không thể so sánh. Một số người dùng có thể bị nhầm lẫn bởi các tuyên bố rằng họ có thể dễ dàng chạy Deepseek-R1 trên máy tính cá nhân. Tuy nhiên, điều này chủ yếu là nhằm quảng cáo hoặc lừa đảo.
Việc triển khai mô hình Deepseek-R1 trên máy tính cá nhân giúp chúng ta thuận tiện hơn trong việc sử dụng các phiên bản chưng cất nhỏ gọn cho các mục đích không đòi hỏi quá cao về hiệu suất. Đồng thời, điều này cũng hỗ trợ tốt cho việc học tập. Ví dụ, bạn có thể triển khai một mô hình 7B hoặc 14B và tích hợp chức năng RAG để chuyển đổi các ghi chú và thư viện kiến thức cá nhân thành một hệ thống tra cứu thông minh hơn.
Trong ví dụ này, chúng ta sẽ sử dụng LM Studio để triển khai một mô hình chưng cất 7B trên môi trường Windows, cụ thể là mô hình lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf
. Đây là mô hình được đào tạo lại từ dữ liệu của DeepSeek-R1 trên nền tảng cơ sở Qwen2.5-Math-7B
thông qua kỹ thuật Fine-tuning giám sát (SFT). Mục tiêu chính của mô hình này là nâng cao khả năng suy luận toán học.
So với Ollama, LM Studio cung cấp giao diện người dùng trực quan, giúp việc triển khai mô hình dễ dàng hơn. Sau khi tải xuống và cài đặt phiên bản tương ứng của LM Studio từ trang web chính thức, bạn có thể bắt đầu bằng cách chỉnh sửa đường dẫn tới kho mô hình. Ví dụ, trên hệ điều hành Win10, sau khi cài đặt LM Studio vào thư mục D:\Program Files\LM Studio
, bạn có thể truy cập vào thư mục resources/app/.webpack
và thay thế chuỗi huggingface.co
bằng hf-mirror.com
bằng công cụ như VSCode hoặc Sublime Text. Điều này giúp tăng tốc độ tải xuống mô hình. Lưu ý rằng tốc độ tải xuống thường nhanh hơn vào ban ngày, và LM Studio hỗ trợ tính năng tạm dừng/kết nối lại tải xuống.
Sau khi tải xong mô hình, bạn có thể chọn nó từ thanh công cụ phía trên. Nếu bạn chỉ có card GPU NVIDIA 3060 với 6GB VRAM, bạn sẽ không thể sử dụng các mô hình lớn. Dùng RAM để tải mô hình chỉ có tác dụng tăng tốc độ truyền từ ổ cứng sang VRAM, trừ khi bạn chỉ chạy trên CPU. Hiện tại, có một nhóm nghiên cứu từ Đại học Thanh Hoa đang thử nghiệm việc sử dụng kTransformer để chạy mô hình Deepseek-R1 đầy đủ trên một card 4090 kèm theo 384GB RAM, nhưng điều này nằm ngoài phạm vi khả thi của đa số người dùng.
Cuối cùng, để tối ưu hóa hiệu suất cho các trường hợp sử dụng đơn giản, bạn có thể giảm kích thước ngữ cảnh, giúp tăng tốc độ tạo văn bản. Ví dụ, câu hỏi "9.11 và 9.08 cái nào lớn hơn?" sẽ được xử lý nhanh chóng mà không cần sử dụng toàn bộ tài nguyên của mô hình.