VIOAI-Vietnam - PHÂN LOẠI ẢNH CHỤP VIÊN THUỐC

Organized by tien-nh - Current server time: July 27, 2024, 1:08 p.m. UTC

First phase

Public Test
May 19, 2024, midnight UTC

End

Competition Ends
July 3, 2024, 6 a.m. UTC

Giới thiệu chung

Chủ đề. Chủ đề tác vụ thứ 2 của cuộc thi VIOAI-Vietnam là "PHÂN LOẠI ẢNH CHỤP VIÊN THUỐC".

Nhiệm vụ. Nhiệm vụ của tác vụ này là xác định tên của các viên thuốc trong một bức ảnh. Cụ thể, đầu vào sẽ là một bức ảnh chụp một viên thuốc, đầu ra của mô hình sẽ là tên của viên thuốc trong ảnh chụp. Tổng số loại viên thuốc là 100.

Dữ liệu. Dữ liệu gồm 3 tập:

  • Training set: Dữ liệu dùng để huấn luyện, được lưu trong thư mục training.
  • Public testset: Các đội có thể dùng tập dữ liệu này để đánh giá hiệu quả của model do đội mình huấn luyện Hai tập dữ liệu này sẽ được công bố vào ngày 19/5.
  • Private testset: Đây là tập dữ liệu BTC sẽ dùng để đánh giá độ tốt các model của các đội. Tập dữ liệu này sẽ được công bố vào ngày 19/6.

Hai tập dữ liệu này được chia sẻ qua đường link NÀY.

Mỗi tập dữ liệu đều chứa một thư mục images bao gồm các ảnh viên thuốc có định dạng .jpg, được đánh số thứ tự tăng dần từ 0. Đối với training set, còn chứa thêm hai tệp labels.txtmedicine2label.json, lần lượt mô tả các thông tin sau:

  • labels.txt: tệp định dạng TEXT thể hiện thông tin ánh xạ giữa một ảnh viên thuốc và giá trị nhãn tương ứng như sau:
  • {tên ảnh}.jpg {giá trị nhãn}

        Ví dụ: 0.jpg 45

  • medicine2label.json: tệp định dạng JSON thể hiện thông tin ánh xạ giữa một giá trị nhãn và tên thuốc tương ứng như sau:

        {

                "{tên thuốc}": {giá trị nhãn},

                ...

        }

       Ví dụ:

       {

              "acefalgan": 0,

              "acetab extra": 1,

              ...

        }

Hướng dẫn nộp kết quả. (chi tiết xem tại phần Submission)

  • Không được chỉnh sửa file kết quả do mô hình của đội sinh ra bằng cách gán nhãn thủ công các dữ liệu trong tập test (bao gồm public test lẫn private test) để nộp cho BTC.
  • Giai đoạn sơ khảo (public test): mỗi đội được phép nộp tối đa 10 lần mỗi ngày. Trong giai đoạn chung kết (private test) được phép nộp tối đa 5 lần mỗi ngày.
  • Các đội lọt vào vòng chung kết bắt buộc phải nộp báo cáo kỹ thuật và source code để BTC đánh giá tính đúng đắn của giải pháp và công bố kết quả cuối cùng.
  • Các đội nộp file mã nguồn notebook (đuôi .ipynb), trong đó có đầy đủ các bước cài đặt môi trường, xử lý dữ liệu, huấn luyện mô hình,... theo đúng thứ tự để BTC có thể reproduce lại được các mô hình.
  • Mã nguồn của các đội cần tuân thủ chặt chẽ định dạng dữ liệu đầu vào và kết quả trả ra để BTC sẽ chạy mã nguồn của các đội, đánh giá chất lượng (dựa trên các tiêu chí tối ưu đề ra) của kết quả đầu ra và xếp hạng.

Tiêu chí đánh giá. Accuracy (hay độ chính xác) được sử dụng để tính toán tỷ lệ dự đoán đúng tên thuốc ứng với mỗi ảnh trên tổng số dự đoán đưa ra. Accuracy càng cao thì mô hình càng tốt (chi tiết xem tại phần Evaluation).

Quy định.

  • Các đội được phép sử dụng các mô hình pre-trained nhưng phải chỉ rõ cho BTC các mô hình pre-trained mà đội sử dụng.
  • Các mô hình pre-trained phải là mô hình có số lượng tham số không vượt quá 200,000,000.
  • Không được phép sử dụng mô hình pre-trained được huấn luyện trên bộ dữ liệu ảnh viên thuốc.

Cuộc thi sẽ được diễn ra với 2 giai đoạn: giai đoạn Public Test và giai đoạn Private Test:

  • Giai đoạn Public Test (19/05/2024 - 19/06/2024): nhằm lan tỏa thông tin tới toàn bộ cộng đồng IT & AI tại Việt Nam, từ đó giúp cộng đồng có thời gian tiếp cận với các hướng xử lý bài toán. Đồng thời, trong thời gian này, các đội thi sẽ được tiếp cận với dữ liệu thực tế, huấn luyện mô hình và đánh giá mô hình thông qua hệ thống đánh giá tự động. Số lần nộp bài tối đa là 10 lần trong 1 ngày.
  • Giai đoạn Private Test (19/06/2024 - 20/06/2024)diễn ra trong vòng 01 ngày. Trong giai đoạn này, các đội thi sẽ nộp kết quả cuối cùng sử dụng mô hình đã được huấn luyện sẵn ở giai đoạn Public Test. Số lần nộp bài tối đa là 5 lần.

Tiêu chí đánh giá

Kết quả sẽ được đánh giá dựa trên chỉ số Accuracy. Accuracy (hay độ chính xác) được sử dụng để tính toán tỷ lệ dự đoán đúng tên thuốc ứng với mỗi ảnh trên tổng số dự đoán đưa ra. Accuracy càng cao thì mô hình càng tốt.

Accuracy được tính theo công thức:

Trong đó:

  • Correct predictionssố lượng dự đoán đúng tên thuốc ứng với mỗi ảnh.
  • All predictionstổng số lượng mẫu dự đoán trên tập dữ liệu test.

 

 

Quy định chung

  • Quyền hủy bỏ, sửa đổi hoặc loại bỏ tư cách tham dự. Ban tổ chức cuộc thi có toàn quyền quyết định chấm dứt, sửa đổi hoặc đình chỉ cuộc thi.

  • Bằng cách gửi kết quả cho cuộc thi, bạn đồng thuận việc công khai điểm số của mình tại hội thảo của cuộc thi và trong các thủ tục liên quan, theo quyết định của Ban tổ chức. Điểm số có thể bao gồm nhưng không giới hạn các đánh giá định lượng được tiến hành tự động và thủ công, các đánh giá định tính, và các chỉ số đo mà ban tổ chức đánh giá là phù hợp. Bạn chấp nhận rằng quyết định cuối cùng liên quan đến việc chọn các chỉ số đo và giá trị điểm số nằm ở người ra đề.

  • Với việc tham gia cuộc thi, bạn xác nhận và công nhận rằng bạn đồng ý tuân thủ các luật và quy định hiện hành, đồng thời bạn không được vi phạm bất kỳ bản quyền, sở hữu trí tuệ hoặc bằng sáng chế nào của một bên khác đối với phần mềm mà bạn phát triển trong quá trình diễn ra cuộc thi và sẽ không vi phạm bất kỳ luật và quy định hiện hành nào liên quan đến kiểm soát xuất khẩu, quyền riêng tư và bảo vệ dữ liệu.

  • Giải thưởng được trao dựa trên sự xem xét và xác minh của Ban tổ chức cuộc thi về tính đủ điều kiện của người dự thi và tuân thủ các quy tắc này cũng như tuân thủ các yêu cầu dành cho đội thắng cuộc.

  • Người tham gia trao cho Ban tổ chức cuộc thi quyền sử dụng các bài dự thi của bạn cũng như mã nguồn và dữ liệu được tạo và sử dụng để tạo bài dự thi cho bất kỳ mục đích nào và không cần phê duyệt thêm.

Điều kiện tham dự

  • Mỗi người tham gia phải tạo một tài khoản CodaLab để gửi giải pháp cho cuộc thi. Mỗi người chỉ được cấp phép duy nhất một tài khoản.

  • Cuộc thi diễn ra công khai, nhưng Ban tổ chức cuộc thi có thể quyết định bác bỏ quyền tham gia theo những cân nhắc riêng.

  • Ban tổ chức cạnh tranh có quyền loại bất kỳ người tham gia nào khỏi cuộc thi nếu, theo quyết định riêng của Ban tổ chức cuộc thi, chúng tôi tin rằng người tham gia đã cố gắng phá hoại hoạt động hợp pháp của cuộc thi thông qua gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác.

Quản lý đội tham gia

  • Những người tham gia được phép thành lập đội. Số lượng người tham gia trong nhóm tối đa là 5 người.

  • Bạn không thể tham gia vào nhiều hơn một đội. Mỗi thành viên trong nhóm phải là một cá nhân duy nhất sử dụng một tài khoản CodaLab riêng biệt.

  • Việc hợp nhất nhóm được cho phép và có thể được thực hiện bởi trưởng nhóm. Yêu cầu hợp nhất nhóm sẽ không được phép sau "Thời hạn sáp nhập nhóm".

  • Để hợp nhất, nhóm được kết hợp phải có tổng số lần gửi nhỏ hơn hoặc bằng số lượng tối đa được phép cho một nhóm tính đến ngày hợp nhất. Mức tối đa được phép là số lần gửi mỗi ngày cho mỗi giai đoạn nhân với số ngày cuộc thi đã diễn ra.

  • Ban tổ chức không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội.

Thể lệ nộp bài

  • Số lần gửi tối đa trong mỗi giai đoạn:

    • Giai đoạn 1 - Khởi động:
      • Public Test: 10 bài / ngày / đội
      • Private Test: 05 bài / ngày / đội
    • Giai đoạn 2 - Về đích:
      • Public Test: 10 bài / ngày / đội
      • Private Test: 05 bài / ngày / đội
  • Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.

Dữ liệu

Bằng cách tải xuống hoặc truy cập dữ liệu do Ban tổ chức cuộc thi cung cấp theo bất kỳ cách nào, bạn đồng ý với các điều khoản sau:

  • Thí sinh KHÔNG được sử dụng dữ liệu khác ngoài tập dữ liệu được cung cấp bởi cuộc thi.
  • Bạn sẽ không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.

  • Bạn sẽ không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do Ban tổ chức cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.

  • Dữ liệu không được sử dụng để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.

  • Bạn hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình và sẽ bảo vệ và bồi thường cho Ban tổ chức cuộc thi, chống lại bất kỳ và tất cả các khiếu nại phát sinh từ việc bạn sử dụng dữ liệu.

 

Định dạng của dữ liệu

Đội thi cần xuất kết ra file .txt. Tên file là predictions.txt.

Mỗi dòng của tệp kết quả .txt sẽ biểu diễn cho một file ảnh và nhã ứng với tên thuốc của ảnh đó. Định dạng như sau:

9.jpg 99

10.jpg 10

...

Ý nghĩa:

  • Ảnh 9.jpg có nhãn 99 (tên thuốc: zinzinc)
  • Ảnh 10.jpg có nhãn 10 (tên thuốc: aspirin 81)

Lưu ý: Nén file kết quả predictions.txt vào file prediction.zip, Sau đó tiếp tục nén vào một file .zip với tên tùy ý (Ví dụ: submit.zip) và nộp lên hệ thống. Các file kết quả trong file .zip không được nằm trong thư mục cha nào.

 

Public Test

Start: May 19, 2024, midnight

Description: Chú ý: file kết quả phải được đặt tên predictions.txt. Sau đó zip lại với tên prediction.zip. Sau đó zip thêm một lần nữa với tên file tùy ý (Ví dụ: filename.zip).

Private Test

Start: June 21, 2024, midnight

Description: Cách thức nộp bài giống public test. Link input data giống với link data của public test: https://drive.google.com/drive/folders/1sAADuQWokDiNx7yH_SYEyPHe9IYOqniz?usp=sharing

Final Round - Public Test

Start: July 2, 2024, midnight

Description: Cách thức nộp bài giống vòng Sơ khảo. Dataset ở link này: https://drive.google.com/drive/folders/1aI276ocIsh8lkNVPNkSigXEHkgY1QPUw?usp=drive_link

Competition Ends

July 3, 2024, 6 a.m.

You must be logged in to participate in competitions.

Sign In