4 Gradient từ mẫu âm có ích không - game bài đổi thưởng tặng quà khởi nghiệp

Sau khi loạt mô hình lý luận (reasoning) của OpenAI được công bố vào ngày 12 tháng 9 năm 2024, toàn thế giới đã cố gắng giải quyết các câu đố mà OpenAI đặt ra. Trong cùng thời gian đó (ngày 20 tháng 1 năm 2025), cả Kimi-k1.5 và deepseek-r1 đều đã phát hành các mô hình suy luận của riêng mình, và cả hai đều đạt hiệu quả như mô hình openai-o1. Đây là hai nhà giải bài toán xuất sắc đáng kính phục.

win5503 Mặc dù Kimi K1.5 có hiệu quả tốt và còn là một mô hình đa chế độ (multi-modal), nhưng xét về sự chú ý trên mạng thì nó hoàn toàn bị DeepSeek-R1 lấn át. Có thể nói đó là do thời cơ và số phận. Tuy nhiên, thực tế là đối với các nhân viên nghiên cứu khoa học cũng như những người làm việc trong lĩnh vực thuật toán và kỹ sư phần mềm, cũng như sinh viên đang tìm kiếm việc làm liên quan đến thuật toán, báo cáo kỹ thuật của Kimi k1.5 đáng để theo dõi hơn. Lý do chính là vì nó cung cấp nhiều chi tiết xử lý thuật toán mà chúng ta có thể áp dụng trực tiếp vào công việc. Trong bài viết trước của tôi “Phân tích từ trên xuống sâu về DeepSeek-R1”, tôi đã đề cập đến một vài điểm mấu chão mà chúng ta muốn biết nhưng DeepSeek R1 lại không tiết lộ. Kimi k1.5 đã cho chúng ta câu trả lời, giúp chúng ta hiểu rõ hơn cách xử lý dữ liệu để tăng cường khả năng lý luận của mô hình.

1. Kiến trúc tổng thể

Kimi K1.5 sử dụng quy trình giống như chatGPT: trước tiên là tiền huấn luyện (pre-training), sau đó là điều chỉnh tinh chỉnh giám sát (SFT), và cuối cùng là học củng cố (reinforcement learning). Quy trình này có thể được minh họa bằng một bức tranh của chuyên gia Mộc Diệu trên Zhihu.

Bài viết này sẽ không đi theo cấu trúc của bản báo cáo gốc, thay vào đó sẽ tập trung vào từng bước quan trọng theo cách hiểu cá nhân, nhằm giúp dễ dàng áp dụng trong công việc và học tập.

2. Tiền huấn luyện

Mô hình nền tảng của Kimi K1.5, hay còn gọi là mô hình base, được đào tạo trên một kho ngữ liệu đa chế độ đa dạng và chất lượng cao. Dữ liệu ngôn ngữ bao gồm năm lĩnh vực: tiếng Anh, tiếng Trung, mã nguồn, suy luận toán học và kiến thức. Dữ liệu đa chế độ bao gồm mô tả hình ảnh, văn bản kết hợp hình ảnh, v.v., đảm bảo tính liên quan, đa dạng và cân bằng của toàn bộ tập dữ liệu tiền huấn luyện.

Tiền huấn luyện diễn ra qua ba giai đoạn:

Giai đoạn 1: Tiền huấn luyện ngôn ngữ-thị giác. Giai đoạn này bắt đầu bằng việc huấn luyện mô hình ngôn ngữ (LLM), sau đó dần dần tích hợp dữ liệu đa chế độ.
- Xử lý dữ liệu rất quan trọng, thường bao gồm lọc theo quy tắc, loại bỏ trùng lặp, phân loại bằng FastText, v.v.
- Huấn luyện LLM trước, sau đó thêm dữ liệu hình ảnh-văn bản để cho mô hình khả năng thị giác-ngôn ngữ. Tháp thị giác (vision tower) được huấn luyện độc lập và không cập nhật tham số của phần LLM.
Giai đoạn 2: Giai đoạn làm mát, sử dụng dữ liệu chọn lọc và tổng hợp để củng cố khả năng của mô hình, đặc biệt là đối với các nhiệm vụ suy luận và dựa trên kiến thức.
Giai đoạn 3: Giai đoạn kích hoạt chuỗi dài, mở rộng khả năng xử lý chuỗi lên tới 131,072 token.

Cuối cùng, chúng ta thu được mô hình kimi-k1.5-base.

3. Đào tạo SFT

3.1 SFT thông thường

3.1.1 Xây dựng dữ liệu

Tập dữ liệu bao gồm nhiều lĩnh vực cơ bản của dữ liệu điều chỉnh tinh chỉnh giám sát (SFT).

Đối với các nhiệm vụ không thuộc về suy luận, như hỏi đáp, viết văn và xử lý văn bản, trước tiên xây dựng một tập dữ liệu hạt giống bằng cách đánh dấu thủ công. Tập dữ liệu này được sử dụng để huấn luyện một mô hình hạt giống. Sau đó, thu thập các gợi ý khác nhau và sử dụng mô hình hạt giống để tạo ra nhiều phản hồi cho mỗi gợi ý. Các chuyên gia đánh giá xếp hạng các phản hồi và tối ưu hóa phản hồi đứng đầu để đưa ra phiên bản cuối cùng.
Đối với các nhiệm vụ suy luận như toán học và lập trình, xác minh dựa trên quy tắc và mô hình thưởng thường chính xác và hiệu quả hơn so với đánh giá thủ công, và cũng sử dụng phương pháp lấy mẫu từ chối để mở rộng tập dữ liệu điều chỉnh tinh chỉnh.

3.1.2 Phân phối dữ liệu

Tập dữ liệu SFT chứa khoảng một triệu mẫu:

500 nghìn ví dụ cho hỏi đáp tổng quát.
200 nghìn cho lập trình.
200 nghìn cho toán học và khoa học.
5 nghìn cho sáng tác văn học.
20 nghìn cho các nhiệm vụ chuỗi dài như tóm tắt, hỏi đáp tài liệu, dịch thuật và viết văn.
Một triệu ví dụ văn bản-thị giác, bao gồm nhiều danh mục khác nhau như giải thích biểu đồ, nhận diện ký tự quang học (OCR), cuộc trò chuyện dựa trên hình ảnh, suy luận thị giác, v.v.

3.1.3 Chi tiết huấn luyện

Epoch 1: Độ dài chuỗi được thiết lập là 32k, tốc độ học (learning rate) giảm từ 2e-5 -> 2e-6.
Epoch 2: Độ dài chuỗi được thiết lập là 128k, tốc độ học được nâng lên 1e-5 rồi giảm xuống 1e-6.

Để cải thiện hiệu suất huấn luyện, các cặp hỏi đáp khác nhau được ghép lại với nhau.

3.2 Long-CoT SFT (Điểm nhấn 1)

Giả sử chúng ta có một tập dữ liệu đã được chọn lọc kỹ càng, chúng ta chọn ra một phần nhỏ từ tập dữ liệu này, bao gồm các câu hỏi (bao gồm văn bản và hình ảnh). Thông qua kỹ thuật Prompt Engineering, chúng ta có thể tạo ra các câu trả lời, phần này nhằm mục đích phát triển khả năng Long-CoT.

Dữ liệu này cần bao gồm quá trình suy nghĩ của con người: lập kế hoạch (tạo bản phác thảo thực hiện), đánh giá (đánh giá các bước trung gian), phản tư (suy nghĩ lại và sửa đổi phương pháp/bước), và khám phá (khuyến khích thử nghiệm các phương pháp và ý tưởng mới).

4. Học củng cố (RL) F88 Casino Download Game Bài (Điểm nhấn 2)

4.1 Xây dựng tập dữ liệu RL

Chúng ta đều biết rằng dữ liệu tốt đóng vai trò quan trọng trong việc cải thiện hiệu quả của RL. Do đó, Kimi định nghĩa ba thuộc tính chính để đánh giá chất lượng tập dữ liệu:

Đa dạng: Tập dữ liệu nên có nguồn gốc phong phú, bao gồm các nhiệm vụ từ tự nhiên học, lập trình, suy luận, v.v.
Cân bằng độ khó: Tập dữ liệu tốt nên cân bằng giữa các câu hỏi dễ, vừa và khó, và thông qua học theo chương trình, mô hình có thể nắm vững khả năng suy luận phức tạp hơn mà không bị quá khớp (overfit).
Đánh giá chính xác: Dữ liệu RL cần có thể được đánh giá chính xác để hướng dẫn tốt hơn cho quá trình suy luận của mô hình.

nổ hũ 789 club 4.2 Định nghĩa vấn đề

Trong nguyên bản của bài báo (phần 2.3.1), có một đoạn dài về định nghĩa vấn đề với nhiều công thức, nhưng những công thức này không quá quan trọng. Điểm chính là khi quá trình suy luận của mô hình đủ dài, chúng ta có thể giả định rằng không gian tìm kiếm khổng lồ này giúp mô hình đạt được câu trả lời đúng cuối cùng. Cuối cùng, vấn đề trở thành một bài toán tối ưu hóa.

4.3 Tối ưu hóa chiến lược

Chiến lược tối ưu hóa được gọi là tối ưu hóa chính sách (policy optimization), chính sách ở đây chính là mô hình mà chúng ta đang huấn luyện. Công thức ban đầu cho chúng ta thấy mục tiêu tối ưu hóa, nhưng để huấn luyện, chúng ta phải chuyển đổi mục tiêu này thành hàm mất mát (loss function).

4.4 Chiến lược lấy mẫu

Lấy mẫu theo kiểu off-policy rất quan trọng trong huấn luyện RL. Có hai chiến lược lấy mẫu chính:

Lấy mẫu theo chương trình: Bắt đầu từ các nhiệm vụ đơn giản và dần dần chuyển sang các nhiệm vụ khó khăn hơn.
Lấy mẫu ưu tiên: Tập trung vào các vấn đề mà mô hình biểu hiện kém hơn. Theo dõi tỷ lệ thành công của mỗi vấn đề và lấy mẫu theo tỷ lệ nghịch với tỷ lệ thành công.

4.5 Long2short (Điểm nhấn 3)

Long2Short của Kimi-K1.5 cho phép chuyển đổi hiệu quả từ suy luận chuỗi dài (Long-CoT) sang suy luận chuỗi ngắn (Short-CoT), giữ nguyên khả năng suy luận sâu nhưng tăng tốc độ phản hồi đáng kể.

4.6 Các chi tiết khác

4.6.1 Mã nguồn

Chúng tôi đã thiết kế một phương pháp tự động tạo các trường hợp kiểm tra cho các bài toán lập trình không có sẵn các trường hợp kiểm tra.

4.6.2 Toán học

Chúng tôi áp dụng hai phương pháp để tăng độ chính xác của mô hình thưởng:

Mô hình thưởng cổ điển: Đầu vào bao gồm “câu hỏi”, “đáp án tham khảo” và “đáp án”.
Mô hình thưởng suy luận chuỗi: Sử dụng dữ liệu CoT và nhãn để huấn luyện mô hình CoT.

4.6.3 Dữ liệu thị giác

Dữ liệu RL thị giác của chúng tôi chủ yếu đến từ ba loại: dữ liệu thực tế, dữ liệu suy luận thị giác tổng hợp và dữ liệu hiển thị văn bản.

4.6.4 Tối ưu hóa trong framework RL

Chúng tôi áp dụng hai chiến lược tối ưu hóa chính: sử dụng framework khác nhau cho huấn luyện và suy luận, và tối ưu hóa sampling Rollout để sử dụng dữ liệu hiệu quả hơn.

5. Kết luận thí nghiệm

5.1 Thí nghiệm chính

Mô hình Kimi-K1.5 thể hiện rất tốt trên các tập dữ liệu chính, trở thành mô hình đa chế độ đầu tiên đuổi kịp openai-o1.

5.2 Thí nghiệm tiến hóa tự thân

Khi mô hình được huấn luyện, nó tự động tạo ra các chuỗi CoT dài hơn và hiệu quả hơn.

5.3 Hiệu quả của học theo chương trình

Áp dụng chiến lược lấy mẫu theo chương trình giúp cải thiện khả năng của mô hình.

5.4 Gradient từ mẫu âm có ích không?

Kết quả cho thấy gradient từ mẫu âm cũng mang lại lợi ích.