Ví dụ táo - sunvip.club

Trong quá trình thực hiện nhận dạng thực thể có tên (NER), một phần lớn lỗi đến từ việc xác định ranh giới thực thể không chính xác. Do đó, làm thế nào để điều chỉnh lại ranh giới của các thực thể này là một công cụ mạnh mẽ giúp cải thiện hiệu suất của NER. Một trong những phương pháp có thể áp dụng là sử dụng từ điển và quy tắc để điều chỉnh lại ranh giới, ví dụ như thuật toán trước-sau đã được đề cập trước đây. Phương pháp thứ hai mà chúng ta sẽ thảo luận ở dưới đây liên quan đến mạng lưới con trỏ (Pointer Network) để định vị lại ranh giới. Ý tưởng này được tham khảo từ bài viết “Đừng che khuất nghệ thuật của bạn vì những khác biệt nhỏ: Định vị lại ranh giới với mạng lưới con trỏ cho trích xuất khía cạnh”.

2. Các loại lỗi NER

Phương pháp này có khả năng xử lý hai loại lỗi chính:

Thực thể bị nhận diện ngắn hơn: Thiếu dự đoán hai ký tự.
Thực thể bị nhận diện dài hơn: Dự đoán thừa hai ký tự.

Chúng ta cần bổ sung phần thiếu sót và loại bỏ phần dư thừa. Phương pháp được sử dụng để đạt được mục tiêu này là huấn luyện lại một mạng lưới con trỏ để xác định lại ranh giới của thực thể mới.

Ground-truth biểu thị ranh giới mà mô hình nên 78win+đăng+nhập nhận diện.

3. Ví dụ cụ thể

Anh ấy thích ăn táo nướng. Mục tiêu là nhận diện từ khóa thực thể sản phẩm: “táo nướng”.

4. Phương pháp định vị lại ranh giới thực thể

Bước 1: Huấn luyện mô hình trích xuất thực thể

4.1.1 Cấu trúc mô hình

Huấn luyện mô hình NER, có thể là bất kỳ mô hình nào. Có thể sử dụng cấu trúc thông thường như CNN+Bi-LSTM+CRF hoặc BERT+CRF. Trong bước này, mô hình NER có thể là bất kỳ mô hình nào, chẳng hạn như BERT+SoftMax.

4.1.2 Đầu vào và đầu ra của mô hình

Đầu vào: Một đoạn văn bản (sentence).
Đầu ra: Danh sách các thực thể. Ví dụ: [“táo”].

Bước 2: Huấn luyện mô hình định vị lại ranh giới

Giả sử kết quả từ bước 1 là [“táo”].

4.2.1 Cấu trúc mô hình

Sử dụng cấu trúc phân loại câu đôi của BERT.

4.2.2 Đầu vào và đầu ra của mô hình

Đầu vào: Dựa trên cấu trúc phân loại câu đôi của BERT, sentence1 sẽ là thực thể được trích xuất từ bước 1, còn sentence2 là câu đầu vào ban đầu. Nếu bước 1 trích xuất được hai thực thể, chúng ta sẽ tạo ra hai mẫu dữ liệu huấn luyện.

Cả thực thể dự game bài đổi thưởng tặng quà khởi nghiệp đoán đúng và sai đều được sử dụng để xây dựng dữ liệu huấn luyện.

Đầu ra: Mô hình sẽ dự đoán xác suất start và end cho từng ký tự trong sentence2, sau đó chọn phần giữa start và end có xác suất cao nhất làm thực thể cuối cùng.

4.2.3 Mục tiêu tối ưu hóa mô hình

Chúng ta sử dụng hàm mất mát log âm, nhưng cũng có thể sử dụng các hàm mất mát khác.

4.2.4 Chi tiết (quan trọng!)

Câu hỏi: Điều quan trọng nhất trong bước 2 là làm thế nào để xây dựng mẫu thực thể? Hay nói cách khác, làm thế nào để thu được sentence1 trong bước 2?

Câu trả lời: Các mẫu thực thể tiêu cực được sinh ra từ mô hình ở bước 1. Cụ thể, chúng ta tạo một bảng tra cứu (map), trong đó mỗi thực thể thực sự là key, và value là danh sách các thực thể tiêu cực tương ứng. Mỗi thực thể thực sự đều có một danh sách các thực thể tiêu cực đi kèm.

Ví dụ: {'thực thể đúng': ['thực thể sai 1', 'thực thể sai 2']}. Tất cả các thực thể sai được sinh ra trong mỗi epoch huấn luyện đều được thêm vào danh sách tương ứng với thực thể đúng. Các thực thể sai phải có sự chồng chéo với thực thể đúng. Chẳng hạn, “táo” và “táo nướng” có sự chồng chéo, trong khi “thích ăn” và “táo nướng” thì không. Vì vậy, “táo” sẽ được coi là mẫu huấn luyện, còn “thích ăn” thì không.

Các mẫu dương của mô hình Reposition sẽ có dạng <CLS> thực thể đúng <sep> câu cần đánh giá <sep>.

Bước 3: Dự đoán mẫu thử nghiệm

Phần huấn luyện mô hình đã được trình bày xong. Khi dự đoán, chỉ cần đưa câu cần dự đoán vào mô hình trích xuất thực thể ở bước 1. Sau đó, xây dựng mẫu từ các thực thể được trích xuất và đưa vào mô hình định vị lại ranh giới thực thể ở bước 2. Cuối cùng, tìm ra tất cả các thực thể tương ứng với từng câu, từ đó hoàn thành việc cải thiện hiệu suất NER thông qua định vị lại ranh giới thực thể.

5. Tài liệu tham khảo

[1] Don’t Eclipse Your Arts Due to Small Discrepancies: Boundary Repositioning with a Pointer Network for Aspect Extraction