1 Khởi động lạnh 4 - game bài đổi thưởng tặng quà khởi nghiệp

Nguyen Chaofa - Ngày 22 tháng 2 năm 2025 - Khoảng 13 phút đọc - Chủ đề: Đọc tài liệu học thuật về mô hình ngôn ngữ lớn (LLM)

Nội dung trang này:

1. Bối cảnh
1. Khung tổng thể
1. DeepSeek-R1-Zero
- 3.1 Xây dựng dữ liệu
- 3.2 Học tăng cường
- 3.3 Những gợi ý cốt lõi
1. DeepSeek-R1
- 4.1 Khởi động lạnh
- 4.2 Tập trung vào khả năng suy luận của RL
- 4.4 Từ chối mẫu và SFT
  - 4.4.1 Dữ liệu suy luận
  - 4.4.2 Dữ liệu không suy luận
- 4.4.3 Học tăng cường toàn cảnh
1. DeepSeep-R1-Distill-Qwen/Llama-xB
1. Một số nỗ lực thất bại
Các phần khác

DeepSeek R1 đã tạo nên một làn sóng quan tâm mạnh mẽ ở trong nước, tương tự như khi chatGPT lần đầu được phát hành. Mọi nơi, mọi ngành nghề đều đang thảo luận về DeepSeek, và lần này DeepSeek còn mang theo niềm tự hào cho Trung Quốc, đồng thời tác động tiêu cực đến giá cổ phiếu của NVIDIA. Điều này đã thúc đẩy sự lan truyền tự nhiên từ công chúng.

Ở đây tôi muốn chia sẻ ghi chú cá nhân sau khi đọc bài báo về DeepSeek-R1, giới thiệu nguyên lý kỹ thuật và lộ trình phát triển của DeepSeek-R1. Tuy nhiên, bài viết này sẽ thay đổi phong cách so với trước đây, không đi sâu vào bất kỳ chi tiết mã nguồn nào mà tập trung vào cách tiếp cận từ trên xuống để giải thích ý nghĩa của DeepSeek-R1 và DeepSeek-R1-Zero.

Trước khi đọc bài viết này, người đọc cần có một số kiến thức nền tảng:

Hiểu về lộ trình huấn luyện của chatGPT hoặc OpenAI, ví dụ: tiền huấn luyện -> hậu huấn luyện (SFT -> RLHF), trong đó RLHF thường sử dụng các phương pháp học trực tuyến và ngoại tuyến như DPO, PPO, và GRPO là cải tiến của những phương pháp này.
Hiểu về Luật mở rộng (Scaling Law) là gì?
- Trước khi có o1, mọi người nói về Luật mở rộng trong quá trình huấn luyện (Training Scaling Law), tức là tăng số lượng token huấn luyện, kích thước mô hình và ngân sách tính toán sẽ cải thiện hiệu suất mô hình.
- Sau o1, mọi người bắt đầu nghiên cứu Luật mở rộng trong quá trình suy luận (Test-time scaling law), tức là tăng cường quy trình suy luận của mô hình sẽ nâng cao hiệu suất.
Hiểu về Mô hình Reasoner là gì?
- Đây là mô hình thực hiện suy nghĩ dài trước khi đưa ra câu trả lời, nâng cấp CoT (chain-of-thought) thành Long CoT.

2. Khung tổng thể

Điểm nổi bật nhất của DeepSeek-R1 là nó không chỉ tái hiện được hiệu quả của mô hình openai-o1 mà còn phá vỡ quy trình huấn luyện tổng thể của các mô hình lớn kể từ chatGPT. Nhận thức quan trọng nhất là: chỉ cần cung cấp phần thưởng chính xác (accuracy reward) cho mô hình thông qua phương pháp học tăng cường (RL), giống như AlphaZero trong cờ vây, có thể giúp mô hình mở rộng hiệu quả hơn mà không cần đến chế độ SFT đắt đỏ.

Bài báo này giới thiệu ba mô hình quan trọng:

DeepSeek-R1-Zero
- Kết luận là chỉ dùng RL cũng có thể cải thiện hiệu quả mô hình, rất đáng để suy ngẫm.
DeepSeek-R1
- Mô hình Reasoner rất mạnh mẽ.
- Thông qua đào tạo đa giai đoạn, có thể cải thiện thêm hiệu quả mô hình so với chỉ dùng RL.
DeepSeek-R1-Distill series
- Kết luận là trên mô hình nhỏ, việc distillation từ mô hình lớn sẽ tốt hơn so với huấn luyện theo cách R1.

3. DeepSeek-R1-Zero

Giải thích ngắn gọn: Trên mô hình cơ sở (DeepSeek-V3), áp dụng trực tiếp phương pháp học tăng cường (GRPO - Group Relative Policy Optimization) để huấn luyện mô hình, trong đó phần thưởng RL sử dụng phần thưởng chính xác (accuracy reward).

3.1 Xây dựng dữ liệu

Phần xây dựng dữ liệu khá đơn giản (vì không tiết lộ nhiều chi tiết). Dữ liệu được xây dựng bằng cách yêu cầu mô hình trả lời các câu hỏi theo định dạng sau:

Quá trình suy nghĩ phải nằm trong <think>quá trình suy nghĩ</think>.
Kết quả cuối cùng phải nằm trong <answer>kết quả cuối cùng</answer>.
Và cần yêu cầu mô hình suy nghĩ trước khi trả lời.

Nguồn gốc dữ liệu không được tiết lộ rõ ràng, nhưng trong các thực hành công khai, hầu hết đều sử dụng các tập dữ liệu liên quan đến toán học và lập trình vì chúng có đáp án chuẩn.

3.2 Học tăng cường

So với các phương pháp phổ biến như DPO, PPO, DeepSeek sử dụng thuật toán học tăng cường GRPO (Group Relative Policy Optimization). Ưu điểm chính của GRPO là:

Giảm nhu cầu về mô hình value/critic, giúp tiết kiệm tài nguyên và thuận lợi cho việc mở rộng.
Có thể giảm thiểu vấn đề reward hacking (vẫn còn tranh cãi).

Trong bước học tăng cường này, DeepSeek sử dụng hai loại phần thưởng:

Phần thưởng chính xác dựa trên kết quả cuối cùng của mô hình.
Phần thưởng định dạng dựa trên cấu trúc <think>xxx</think> sau đó <answer>xxx</answer>.

3.3 Những gợi ý cốt lõi

Điểm đầu tiên là hiệu quả mô hình rất tốt, vượt xa mong đợi, chứng minh rằng chỉ cần RL mà không cần SFT cũng có thể cải thiện khả năng suy luận của mô hình lên mức đáng kinh ngạc.
Điểm thứ hai là mô hình có hiệu ứng tiến hóa rõ rệt khi số bước huấn luyện RL tăng lên.
Điểm thứ ba là khả năng tự tiến hóa của mô hình dưới sự xúc tác của RL. Cụ thể là: càng huấn luyện, mô hình càng suy nghĩ dài hơn, tạo ra nhiều token hơn và xuất hiện các hành vi như phản tỉnh, điều chỉnh, đánh giá lại, khám phá lại.
Điểm thứ tư là khả năng nhận thức đột phá của mô hình, tức là mô hình sẽ đặt các dấu hiệu (flag) cho các bước quan trọng, cho phép suy nghĩ và đánh giá sâu hơn.

Tuy nhiên, DeepSeek-R1-Zero cũng có một số nhược điểm:

Độ dễ đọc kém. Có thể xuất ra các nội dung mà con người khó hiểu.
Phối trộn ngôn ngữ. Chuyển đổi giữa các ngôn ngữ như tiếng Trung, tiếng Anh, tiếng Ả Rập, v.v.

4. DeepSeek-R1

Để cải thiện các vấn đề trên và tối ưu hiệu quả hơn nữa, chúng ta hãy xem DeepSeek-R1 được tối ưu như thế nào?

4.1 Khởi động lạnh

Chúng ta đã đề cập đến vấn đề độ dễ đọc của mô hình, giả sử mô hình này gọi là DeepSeek-r1-zero-no-coldstart. Chúng ta có thể thiết kế một phương pháp khởi động lạnh để huấn luyện DeepSeek-R1-zero-with-coldstart.

Cách làm cụ thể:

Sử dụng một phần dữ liệu long-cot như few-shot, thông qua kỹ thuật prompt engineering để mô hình tạo ra các câu trả lời có phản tỉnh và xác nhận.
Thu thập kết quả từ DeepSeek-r1-zero-no-coldstart (phần này cần được chỉnh sửa, lọc bỏ thủ công).

Kết quả thu được sẽ được sử dụng để huấn luyện SFT từ deepseek-v3-base, tạo ra mô hình DeepSeek-v3-base-with-coldstart-sft. Dữ liệu này có hai ưu điểm:

Độ dễ đọc được cải thiện nhờ định dạng mới |special_token|<reasoning_process>|special_token|<summary>.
Khả năng reasoning được nâng cao nhờ lọc chọn thủ công.

4.2 Tập trung vào khả năng reasoning của RL

Bước này nhằm cải thiện khả năng reasoning của mô hình. Chúng ta áp dụng phương pháp RL tương tự như DeepSeek-r1-zero-no-coldstart, nhưng có một số cải tiến:

Thay thế mô hình cơ sở từ deepseek-v3-base sang DeepSeek-v3-base-with-coldstart-sft.
Thay đổi nội dung phần thưởng:
- DeepSeek-r1-zero-no-coldstart sử dụng phần thưởng định dạng và phần thưởng kết quả cuối cùng.
- deepseek-r1-zero-with-coldstart-focus-on-reasoning sử dụng phần thưởng nhất quán ngôn ngữ và phần thưởng kết quả cuối cùng.

Mô hình deepseek-r1-zero-with-coldstart-focus-on-reasoning được sử dụng để tạo dữ liệu huấn luyện reasoning cho deepseek-r1.

4.4 Từ chối mẫu và SFT

Từ bước này, mục tiêu của chúng ta không chỉ là reasoning mà còn là hiệu quả toàn cảnh. Vì vậy, chúng ta cần cả dữ liệu reasoning và dữ liệu không reasoning.

4.4.1 Dữ liệu reasoning

Chúng ta sử dụng deepseek-v3 như một reward-model để đánh giá chất lượng sinh ra của mô hình. Ngoài ra, các mẫu CoT dài, chứa mã nguồn và ngôn ngữ trộn sẽ bị loại bỏ.

Cụ thể, mỗi mẫu được deepseek-r1-zero-with-coldstart-focus-on-reasoning sinh ra nhiều kết quả, sau đó lọc chọn bằng hai phương pháp trên, thu được 600k mẫu reasoning.

4.4.2 Dữ liệu không reasoning

Dữ liệu này bao gồm các nhiệm vụ như viết lách, trả lời câu hỏi thực tế, giả lập vai trò, dịch thuật, v.v. Dữ liệu được lấy trực tiếp từ phần SFT của deepseek-v3. Tổng cộng thu được 200k mẫu không reasoning.

Hiện tại chúng ta có 800k dữ liệu SFT, được huấn luyện SFT trong hai epoch.

4.4.3 Học tăng cường toàn cảnh

Cuối cùng, chúng ta sử dụng học tăng cường hai giai đoạn để đảm bảo mô hình phù hợp với sở thích của con người, đồng thời cải thiện khả năng reasoning và tính hữu ích, vô hại.

Kết quả cuối cùng là deepseek-r1, có khả năng reasoning tuyệt vời, đồng thời duy trì tính hữu ích và vô hại.

5. DeepSeep-R1-Distill-Qwen/Llama-xB

Một ý tưởng tự nhiên là liệu mô hình nhỏ hơn có thể đạt được khả năng tương tự như deepseek-r1 hay không. Có hai cách:

Cách 1: Sử dụng dữ liệu distillation từ deepseek-r1 để huấn luyện mô hình nhỏ (SFT).
Cách 2: Huấn luyện mô hình nhỏ theo pipeline giống deepseek-r1.

Kết quả cho thấy distillation hiệu quả hơn so F88 Casino Download Game Bài với huấn luyện RL trực tiếp trên mô hình nhỏ. Tuy nhiên, qwq-32b-preview có hiệu suất gần tương đương với deepseek-r1-zero-qwen-32b, cho thấy khả năng qwq cũng được huấn luyện theo cách tương tự.

6. Một số nỗ lực thất bại

Model phần thưởng quy trình (PRM):
- Khó định nghĩa độ granular của PRM, làm thế nào để xác định một bước?
- Khó đánh giá liệu bước hiện tại có chính xác hay không.
- Khó huấn luyện model rm từng bước, dễ dẫn đến reward hacking.
Tìm kiếm cây Monte Carlo (MCTS):
- Không gian tìm kiếm quá lớn do bảng từ vựng của mô hình ngôn ngữ rất rộng.
- Giới hạn tối đa của việc khám phá dễ dẫn đăng ký jun88 đến tối ưu cục bộ.
- Khó huấn luyện model value và đánh giá các bước hiện tại.

Tuy nhiên, những nỗ lực thất bại này không có nghĩa là các hướng đi này hoàn toàn sai, có thể chưa tìm được cách tiếp cận đúng.

Các phần khác

Cuối cùng, mời bạn theo dõi tôi trên các nền tảng mạng xã hội:

Facebook: chaofa dùng code để nấu ăn
YouTube: chaofa dùng code để nấu ăn
Notion: Trang giới thiệu của chaofa