Featured image of post Ký ức về việc nộp bài EMNLP 2020 - nổ hũ 789 club

Ký ức về việc nộp bài EMNLP 2020 - nổ hũ 789 club

Sòng bạc trực tuyến uy tín với nhiều trò chơi đa dạng tại nổ hũ 789 club.

Chaofa Yuan - Ngày 12 tháng 6 năm 2020 - Khoảng 10 phút viết lách

Trang này bao gồm:

  • Một chút chuyện bên lề
  • Lý do nộp bài
  • Mạng Pointer hướng đến thất bại
  • Supervised Self-Attention không phải là con đường đúng đắn
  • Quá trình Sequence Labeling đầy thử thách
  • Ghi chú thêm

Đêm hôm đó, sau khi đã hoàn thành việc nộp bài cho EMNLP 2020, tôi định bắt tay vào viết ngay. Nhưng sau khi gửi đi bài báo mà mình đã đọc đi đọc lại hàng chục lần, cảm giác mệt mỏi tràn ngập khiến tôi chẳng còn sức lực để làm gì khác ngoài việc muốn ngủ. Cả đầu óc chỉ nghĩ đến việc chợp mắt một chút trước khi vội vàng ra ga tàu hỏa. Khi tới nơi, đã hơn mười giờ tối. Có lẽ vì đại dịch hay đơn giản là đã quá khuya nên lượng người tại ga rất thưa thớt. Tôi nhanh chóng lấy vé từ cửa sổ bán vé thủ công và bước vào sân ga chờ tàu.

Trong lúc đợi, vô tình liếc nhìn tấm vé trên tay thì nhận ra rằng trong lúc vội vàng đổi chuyến, tôi quên kiểm tra ga đến. Nhặt điện thoại lên xem lại ứng dụng 12306, may mắn là còn có chuyến tàu khởi hành lúc hai giờ sáng tới ga Thâm Quyến Đông, giúp tôi tiết kiệm thời gian chuyển tuyến khi về trường. Còn hơn một tiếng rưỡi nữa tàu mới xuất phát, tôi vội quay lại quầy vé để đổi sang chuyến sớm hơn. Sau khi giải thích với nhân viên rằng tôi muốn hủy vé cũ và mua vé chuyến lúc nửa đêm hai giờ sáu phút, họ tỏ ra không mấy kiên nhẫn nhưng vẫn đồng ý hỗ trợ. Tuy nhiên, khi nhận lại vé mà không kịp kiểm tra kỹ, tôi ngạc nhiên khi phát hiện ra đây thực chất là vé của chuyến tàu ngày hôm sau!

Vì quá mệt mỏi và buồn ngủ, tôi ngồi xuống sân ga thiếp đi một lúc. Khi tỉnh dậy và lên tàu, tôi mới tá hỏa nhận ra rằng vé trên tay là của chuyến tàu ngày mai! Không còn cách nào khác, tôi đành lên tàu và mua thêm vé bổ sung. Trong lúc nằm xuống, tôi tự hỏi liệu việc đánh máy sai chính tả thường gặp khi gõ chữ có giống như những ý tưởng nghiên cứu không thành công hay không? Một số lỗi chính tả không ảnh hưởng nhiều đến ý nghĩa, nhưng một số lại khiến câu văn trở nên hoàn toàn khác biệt. Chưa kịp suy ngẫm sâu sắc về vấn đề này, tôi đã thiếp đi và khi thức dậy, tất cả cảm xúc lúc ấy dường như đã tan biến.

Lý do nộp bài

Năm nay, do đại dịch, hầu hết thời gian tôi đều ở nhà. Đây vốn là khoảng thời gian lý tưởng để tập trung ôn luyện và học hỏi, nhưng thật bất ngờ, thời gian chuẩn bị cho EMNLP lại chiếm phần lớn so với kế hoạch tìm kiếm thực tập ban đầu. Điều này thật kỳ lạ, bởi đầu năm tôi chỉ nghĩ sẽ cố gắng tìm được một cơ hội thực tập tốt, tích lũy kinh nghiệm rồi tự tin bước vào mùa tuyển dụng thu.

Nhưng mọi thứ không diễn ra theo kế hoạch. Sau khi bị từ chối bởi một vị trí tiềm năng, tôi quyết định thử sức với một bộ phận ít nổi bật hơn tại Toutiao. Với sự hiệu quả đặc trưng của họ, tôi nhanh chóng nhận được lời mời thực tập từ Toutiao. Việc này làm tôi mất động lực trong việc ôn luyện và tạm gác các kế hoạch ban đầu. Tuy nhiên, trong một buổi phỏng vấn, tôi bị hỏi về lý do tại sao tôi không phải là tác giả chính của bài báo ACL trước đó. Điều này lại khơi dậy niềm đam mê nghiên cứu trong tôi. Mặc dù ban đầu tôi từng nghĩ rằng việc viết bài báo chẳng có ích lợi gì, nhưng giờ đây tôi quyết tâm có được một bài báo trên hội nghị quốc tế trong suốt thời gian học cao học.

Mạng Pointer dẫn đến thất bại

Dù thế nào đi nữa, làm việc ở nhà luôn có vấn đề về hiệu tải game bắn cá đổi thưởng tiền mặt suất, khiến khả năng hoàn thành một bài báo giảm đáng kể. Nhưng kể từ khi quyết tâm đạt được mục tiêu này, tư duy của tôi dường như được cải thiện đáng kể. Trong quá trình thảo luận với anh Châu và anh Vũ Hàn, tôi nảy ra ý tưởng sử dụng mạng Pointer Network để giải quyết bài toán trích xuất cặp cảm xúc-nguyên nhân (Emotion-Cause Pair Extraction - ECPE). Ban đầu, ý tưởng này trông khá hứa hẹn, đặc biệt khi được anh Phạm Sáng ủng hộ nhiệt tình. Tôi bắt đầu mã hóa ngay lập tức với hy vọng mã nguồn sẽ dễ mở rộng, dễ đọc và thuận tiện cho các thí nghiệm đối chiếu.

Sau một tuần miệt mài nghiên cứu các tài liệu liên quan và triển khai mô hình Pointer Network cho nhiệm vụ ECPE, tôi cảm thấy tương đối tự tin. Tuy nhiên, kết quả thực nghiệm cuối cùng lại không như mong đợi. Dù đã thử nhiều phương pháp cải tiến, bao gồm thay đổi cấu trúc và tận dụng thông tin hỗ trợ, nhưng vẫn không thể cải thiện hiệu suất đáng kể. Đợt thử nghiệm này đã dạy tôi rằng, đôi khi ý tưởng tuyệt vời trên giấy tờ không nhất thiết sẽ hoạt động tốt trong thực tế.

Supervised Self-Attention không phải là lối thoát

Tâm trạng lúc này đã gần như tuyệt vọng nếu không nhờ anh Sáng gợi ý viết một bài giới thiệu cho ACL. May mắn thay, anh giới thiệu cho tôi một bài báo chuẩn mực về thực thể-lời bình trong lĩnh vực ABSA, điều này gợi mở cho tôi một hướng tiếp cận mới: sử dụng mô hình Supervised Self-Attention để giải quyết nhiệm vụ ECPE. Ý tưởng này ngay lập tức nhận được sự tán thành mạnh mẽ từ anh Sáng. Anh khuyến khích tôi thử ngay lập tức, và tôi cũng cảm thấy tự hào về bản thân. Tuy nhiên, kết quả thực nghiệm lại không như mong đợi, càng làm tăng áp lực khi thời hạn đang dần đến gần.

Trong quá trình chuẩn bị, tôi phát hiện ra hai bài báo có ý tưởng rất tương đồng, khiến tôi lo lắng và nghi ngờ về khả năng bản thân. Sau khi thảo luận với anh Sáng, anh gợi ý tôi thay đổi cách tiếp cận bằng cách sử dụng hinge loss để nhấn mạnh trọng điểm của bài báo. Mặc dù có chút cải thiện, nhưng hiệu suất vẫn không đạt mức state-of-the-art. Tình huống này càng làm tôi căng thẳng, đặc biệt khi thời gian còn lại rất ngắn. Nhiều lần tôi nghi ngờ code của mình có vấn đề, nhưng nhờ sự hỗ trợ từ anh Vũ Hàn, tôi dần loại bỏ những lo ngại này.

Quá trình Sequence Labeling đầy thử thách

Câu chuyện tưởng chừng sẽ dừng lại tại đây khi tôi bắt đầu sắp xếp kế hoạch về trường và thực tập. Nhưng một buổi sáng, anh Sáng gọi điện hỏi tôi về phương pháp baseline trong bài báo ACL trước đó, và liệu chúng ta có thể cải tiến nó để chạy thí nghiệm thêm hay không. Dựa trên nền tảng code sẵn có, tôi bắt đầu khởi động đợt thử nghiệm thứ ba. Mặc dù thời gian chỉ còn chưa đầy một tuần, nhưng nhờ code đã được chuẩn bị trước nên tôi không quá hoảng loạn.

Tuy nhiên, tai nạn bất ngờ xảy ra khi một buổi sáng tôi phát hiện không thể truy cập vào máy chủ. Ban đầu, tôi nghĩ rằng mạng internet bị gián đoạn và cần tái kết nối FRP, nhưng hóa ra nguyên nhân là do hệ thống cáp quang của trường đang được nâng cấp. Sự cố này kéo dài qua cả ngày Chủ nhật, khiến chúng tôi không thể tiếp tục thí nghiệm. Chỉ đến chiều ngày một tháng sáu, sau nhiều giờ chờ đợi, vấn đề mới được giải quyết. Thời gian còn lại để hoàn thành bài báo chỉ còn vài chục giờ.

May mắn thay, thí nghiệm cuối cùng diễn ra tương đối suôn sẻ, và chúng tôi kịp hoàn thành bài báo trước khi thời hạn được gia hạn thêm 48 giờ. Trong giai đoạn cuối, tôi không thể không cảm ơn sự hỗ trợ quý báu từ anh Kiện và game bài đổi thưởng tặng quà khởi nghiệp anh Châu, giúp chúng tôi vượt qua mọi khó khăn.

Ghi chú thêm

Con người thường có xu hướng phóng đại vai trò của mình trong một dự án. Có lẽ mọi thứ tôi vừa đề cập chỉ chiếm khoảng 50% giá trị thực tế, vì tất cả đều nhờ vào sự dẫn dắt tuyệt vời từ anh Sáng. Cuối cùng, tôi xin mượn câu nói “Không có vấn đề gì lớn đâu, tất cả đều đang tiến triển tốt” để kết thúc bài viết này.

Built with Hugo
Theme Stack thiết kế bởi Jimmy