TÁC VỤ 3: TÓM TẮT VĂN BẢN Y SINH PubMed là một cơ sở dữ liệu lớn về tài liệu y sinh và sức khỏe, được duy trì bởi Thư viện Y khoa Quốc gia Hoa Kỳ (NLM) tại Viện Y tế Quốc gia (NIH). Nó bao gồm hàng triệu bài báo khoa học từ các tạp chí y học, sinh học và các lĩnh vực liên quan. Việc tóm tắt được các văn bản y sinh này có ý nghĩa cực kỳ quan trọng cho các nhà nghiên cứu giảm bớt thời gian khi phải tìm kiếm tài liệu liên quan.
Nhiệm vụ. Tóm tắt văn bản theo phương pháp trích xuất (Extractive Summarization) là quá trình tạo ra một tóm tắt bằng cách chọn lọc và trích xuất các câu hoặc đoạn văn bản quan trọng từ tài liệu gốc. Phương pháp này không tạo ra ngôn ngữ mới mà chỉ sử dụng chính các câu có sẵn trong tài liệu.
Với dữ liệu huấn luyện, từ văn bản tóm tắt mẫu các bạn cần chọn ra tập các câu quan trọng trong văn bản gốc và giúp máy học được các nhận diện những câu này. Trên dữ liệu test, mô hình cần đọc vào văn bản (ở dạng danh sách các câu) và trả ra giá trị 0 hoặc 1 cho mỗi câu thể hiện việc câu đó có quan trọng (=1) để đưa vào văn bản tóm tắt hay không.
Dữ liệu. Dữ liệu gồm 3 tập:
Hai tập dữ liệu này được chia sẻ qua đường link NÀY.
text: chứa danh sách các câu;
section_names: chứa tên các section, sectionId tương ứng;
section_belong: chứa danh sách sectionId của mỗi câu.
Ví dụ:
{
"text":["Introduction", "Method 1", "Method 2", "Experimental Results", "Conclusion & Discussion"],
"section_belong":[0, 1, 1, 2, 3],
"section_names":["Introduction", "Methods", "Results", "Conclusion"]
}
Tập dữ liệu này sẽ được công bố vào ngày 19/6.
Hướng dẫn nộp kết quả. (chi tiết xem tại phần Submission)
Với mỗi mẫu văn bản "text" các câu đầu vào, đội thi cần xuất kết ra file .npy. Tên file .npy sẽ có định dạng pred.npy. Trong đó, là mảng chứa các mảng con, mỗi mảng con ứng với đầu ra tóm tắt của mô hình gồm các giá trị 0 và 1: 0 tương ứng với câu không được đưa vào văn bản tóm tắt; 1 tương ứng với câu văn sẽ được đưa vào văn bản tóm tắt. Độ dài mỗi mảng con tương ứng với độ dài của văn bản gốc "text".
Lưu ý: Các nhóm thi lưu mảng dưới dạng object như sau:
Ví dụ: Với đầu vào là 2 văn bản có cùng độ dài là 5 câu, kết quả dự đoán của các đội cần được lưu dưới dạng:
[[0, 0, 1, 1, 0],
[0, 1, 1, 1, 1]]
Sau đó file pred.npy cần được nén thành file prediction.zip. Sau đó nén file prediction.zip này thêm 1 lần với tên bất kỳ và nộp lên hệ thống.
Tiêu chí đánh giá. Mức độ giống nhau giữa văn bản tóm tắt của thí sinh (Ts) và văn bản tóm tắt chuẩn (Tg) sẽ được đánh giá thông qua hai phép đo Rouge (Trung bình của F1 score) và BertScore. (chi tiết xem tại phần Evaluation)
Quy định. Các đội tham gia được sử dụng pre-trained model nhưng không được huấn luyện cho Tiếng Việt. Ví dụ: Có thể sử dụng pre-trained model để phát hiện và nhận diện tiếng Anh. Ngoài ra, các đội thi cần đọc kĩ quy tắc chung.
Cuộc thi sẽ được diễn ra với 2 giai đoạn: giai đoạn Public Test và giai đoạn Private Test:
Tiêu chí đánh giá
Mức độ giống nhau giữa văn bản tóm tắt của thí sinh (Ts) và văn bản tóm tắt chuẩn (Tg) sẽ được đánh giá thông qua hai phép đo Rouge (Trung bình của F1 score) và BertScore. Cụ thể công thức đánh giá được tính như sau:
Quy định chung
Quyền hủy bỏ, sửa đổi hoặc loại bỏ tư cách tham dự. Ban tổ chức cuộc thi có toàn quyền quyết định chấm dứt, sửa đổi hoặc đình chỉ cuộc thi.
Bằng cách gửi kết quả cho cuộc thi, bạn đồng thuận việc công khai điểm số của mình tại hội thảo của cuộc thi và trong các thủ tục liên quan, theo quyết định của Ban tổ chức. Điểm số có thể bao gồm nhưng không giới hạn các đánh giá định lượng được tiến hành tự động và thủ công, các đánh giá định tính, và các chỉ số đo mà ban tổ chức đánh giá là phù hợp. Bạn chấp nhận rằng quyết định cuối cùng liên quan đến việc chọn các chỉ số đo và giá trị điểm số nằm ở người ra đề.
Với việc tham gia cuộc thi, bạn xác nhận và công nhận rằng bạn đồng ý tuân thủ các luật và quy định hiện hành, đồng thời bạn không được vi phạm bất kỳ bản quyền, sở hữu trí tuệ hoặc bằng sáng chế nào của một bên khác đối với phần mềm mà bạn phát triển trong quá trình diễn ra cuộc thi và sẽ không vi phạm bất kỳ luật và quy định hiện hành nào liên quan đến kiểm soát xuất khẩu, quyền riêng tư và bảo vệ dữ liệu.
Giải thưởng được trao dựa trên sự xem xét và xác minh của Ban tổ chức cuộc thi về tính đủ điều kiện của người dự thi và tuân thủ các quy tắc này cũng như tuân thủ các yêu cầu dành cho đội thắng cuộc.
Các nhóm đạt giải cam kết chuyển giao giải pháp cho dự án AICovidVN triển khai giải pháp mở cho chống dịch Covid-19, trong đó có việc triển khai cùng Ban chỉ đạo quốc gia phòng chống Covid-19 để sàng lọc trên diện rộng. Nhóm tác giả có thể sử dụng vào mục đích khác tùy nhu cầu.
Điều kiện tham dự
Mỗi người tham gia phải tạo một tài khoản CodaLab để gửi giải pháp cho cuộc thi. Mỗi người chỉ được cấp phép duy nhất một tài khoản.
Cuộc thi diễn ra công khai, nhưng Ban tổ chức cuộc thi có thể quyết định bác bỏ quyền tham gia theo những cân nhắc riêng.
Ban tổ chức cạnh tranh có quyền loại bất kỳ người tham gia nào khỏi cuộc thi nếu, theo quyết định riêng của Ban tổ chức cuộc thi, chúng tôi tin rằng người tham gia đã cố gắng phá hoại hoạt động hợp pháp của cuộc thi thông qua gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác.
Quản lý đội tham gia
Những người tham gia được phép thành lập đội. Số lượng người tham gia trong nhóm tối đa là 5 người.
Bạn không thể tham gia vào nhiều hơn một đội. Mỗi thành viên trong nhóm phải là một cá nhân duy nhất sử dụng một tài khoản CodaLab riêng biệt.
Việc hợp nhất nhóm được cho phép và có thể được thực hiện bởi trưởng nhóm. Yêu cầu hợp nhất nhóm sẽ không được phép sau "Thời hạn sáp nhập nhóm".
Để hợp nhất, nhóm được kết hợp phải có tổng số lần gửi nhỏ hơn hoặc bằng số lượng tối đa được phép cho một nhóm tính đến ngày hợp nhất. Mức tối đa được phép là số lần gửi mỗi ngày cho mỗi giai đoạn nhân với số ngày cuộc thi đã diễn ra.
Ban tổ chức không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội.
Thể lệ nộp bài
Số lần gửi tối đa trong mỗi giai đoạn:
Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.
Dữ liệu
Bằng cách tải xuống hoặc truy cập dữ liệu do Ban tổ chức cuộc thi cung cấp theo bất kỳ cách nào, bạn đồng ý với các điều khoản sau:
Bạn sẽ không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.
Bạn sẽ không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do Ban tổ chức cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.
Dữ liệu không được sử dụng để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.
Bạn hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình và sẽ bảo vệ và bồi thường cho Ban tổ chức cuộc thi, chống lại bất kỳ và tất cả các khiếu nại phát sinh từ việc bạn sử dụng dữ liệu.
Định dạng của dữ liệu
Với mỗi mẫu văn bản "text" các câu đầu vào, đội thi cần xuất kết ra file .npy. Tên file .npy sẽ có định dạng pred.npy. Trong đó, là mảng chứa các mảng con, mỗi mảng con ứng với đầu ra tóm tắt của mô hình gồm các giá trị 0 và 1: 0 tương ứng với câu không được đưa vào văn bản tóm tắt; 1 tương ứng với câu văn sẽ được đưa vào văn bản tóm tắt. Độ dài mỗi mảng con tương ứng với độ dài của văn bản gốc "text". Sử dụng hàm np.save để lưu kết quả vào file .npy
Lưu ý: Các nhóm thi lưu mảng dưới dạng object như sau:
Ví dụ: Với đầu vào là 2 văn bản có cùng độ dài là 5 câu, kết quả dự đoán của các đội cần được lưu dưới dạng:
[[0, 0, 1, 1, 0],
[0, 1, 1, 1, 1]]
Sau đó file pred.npy cần được nén thành file prediction.zip. Sau đó nén file prediction.zip này thêm 1 lần với tên bất kỳ và nộp lên hệ thống.
Start: May 19, 2024, midnight
Start: June 21, 2024, midnight
Start: July 2, 2024, midnight
July 3, 2024, 6 a.m.
You must be logged in to participate in competitions.
Sign In