Featured image of post Phương pháp đủ đơn giản 4 - game winvn

Phương pháp đủ đơn giản 4 - game winvn

Trang web chính thức của game winvn

Chaofa Yuan, 3 tháng 8 năm 2020, khoảng 2 game bài đổi thưởng tặng quà khởi nghiệp phút - Ứng dụng thuật toán thông minh

    1. Tính đa dạng thực sự của việc thu hồi Query
      1. Vấn đề về tính đa dạng khi thu hồi mà chúng ta đang đối mặt?
      1. Các vấn đề được phát hiện khi phân tích Query?
      1. Phương pháp đủ đơn giản
      • 4.1 Đa dạng hóa ID câu hỏi
      • 4.2 Sử dụng khoảng cách chỉnh sửa tối thiểu để chọn Query

1. Tính đa dạng thực sự của việc thu hồi Query

Đối với mỗi query đầu vào, mặc dù người dùng khác nhau có thể nhập cùng một query, nhưng trên lý thuyết, điểm quan tâm của mỗi cá nhân có thể không giống nhau. Do đó, việc trả về các đáp án đa dạng hơn sẽ giúp thỏa mãn nhu cầu của nhiều người dùng hơn.

2. Vấn đề về tính đa dạng khi thu hồi mà chúng ta đang đối mặt?

Hiện tại, chúng tôi đang giải quyết một bài toán QA trong lĩnh vực trò chơi. Phương án áp dụng là mô hình truyền thống gồm hai giai đoạn: tìm kiếm và thu hồi. TODO

3. Các vấn đề được phát hiện khi phân tích Query?

Trong quá trình phân tích dữ 78win+đăng+nhập liệu nghiệp vụ, chúng tôi nhận thấy hai vấn đề điển hình:

  • Vấn đề thứ nhất: Các query được thu hồi bởi mô hình tìm kiếm thường khá tương đồng. Điều này xảy ra vì thư viện QA chứa rất nhiều query phong phú, dẫn đến mô hình có khả năng phát hiện nhiều query tương tự nhau. Chẳng hạn, nếu query đầu vào từ người dùng là “Hello world”, thì các kết quả thu hồi có thể bao gồm: 1. hello world 2. hello world! 3. hrllo world! 4. hallo world! 5. hello word. Đối với trường hợp này, việc thu hồi quá nhiều câu hỏi tương tự như vậy là không hợp lý; chỉ cần giữ lại một hoặc hai câu là đủ.

  • Vấn đề thứ hai: Các query thu hồi thuộc cùng một nhóm (cluster), nhưng chúng không đồng nhất về mặt ngôn ngữ. Ví dụ, nếu query đầu vào của người dùng là “hi”, thì các query thu hồi có thể là: 1. hello 2. hi 3. 你好 (chào) 4. Bonjour (xin chào trong tiếng Pháp) 5. こんにちは (chào trong tiếng Nhật). Trong trường hợp này, các query tuy khác nhau về ngôn ngữ nhưng lại gần gũi về ý nghĩa. Vì vậy, chỉ cần chọn một hoặc hai câu đại diện để sử dụng cho giai đoạn xếp hạng chính xác sau đó.

4. Phương pháp đủ đơn giản

4.1 Đa dạng hóa ID câu hỏi

Theo thống kê, hơn 10% dữ liệu có ID câu hỏi của top 16 query là giống nhau. Chúng ta có thể áp dụng quy tắc rằng nếu đã có 10 query có cùng ID câu hỏi, thì nên ưu tiên thu hồi các query có ID câu hỏi khác biệt tiếp theo.

4.2 Sử dụng khoảng cách chỉnh sửa tối thiểu để chọn Query

Đối với trường hợp đầu tiên, chúng ta có thể sử dụng khoảng cách chỉnh sửa tối thiểu (Levenshtein distance) để chọn các query phù hợp. Điều này giúp loại bỏ các query quá tương tự nhau và đảm bảo tính đa dạng trong danh sách thu hồi.

Built with Hugo
Theme Stack thiết kế bởi Jimmy