Viettel AI Challenge: Image Translation

Organized by ViettelAIChallenge - Current server time: Dec. 21, 2024, 5:04 p.m. UTC

First phase

Public Test
Oct. 28, 2024, midnight UTC

End

Competition Ends
Nov. 21, 2024, midnight UTC

Giới thiệu chung

Công nghệ chuyển đổi đối tượng trong ảnh đang trở thành một công cụ quan trọng, mang lại sự tiện lợi và khả năng sáng tạo không giới hạn trong nhiều lĩnh vực như thiết kế, quảng cáo, và truyền thông. Trước đây, để thay đổi một đối tượng trong ảnh, người dùng cần phải có kỹ năng chỉnh sửa chuyên sâu hoặc phải chụp lại bức ảnh theo ý muốn. Giờ đây, với sự phát triển của trí tuệ nhân tạo và các mô hình học sâu, việc này đã trở nên dễ dàng hơn bao giờ hết.

Hãy tưởng tượng một người chụp một bức ảnh có chú chó và muốn thay thế nó bằng một con mèo mà không làm thay đổi bối cảnh, nội dung tổng thể của bức ảnh. Yêu cầu đặt ra là chú mèo phải có những đặc điểm tương đồng với chú chó gốc, như dáng vẻ, màu lông, tư thế, ..., sao cho sự thay thế này không làm ảnh hưởng đến ánh sáng, bố cục và phông nền của bức ảnh.

 

Chủ đề. "CHUYỂN ĐỔI HỈNH ẢNH CHÓ SANG HÌNH ẢNH MÈO".

Nhiệm vụ. Nhiệm vụ của bạn là phát triển một mô hình chuyển đổi một đối tượng cụ thể trong một bức ảnh sang một đối tượng khác, đáp ứng các yêu cầu khắt khe về việc bảo toàn bối cảnh và nội dung gốc của ảnh. Cụ thể, bạn được cung cấp một tập dữ liệu gồm các bức ảnh chụp các chú chó, và bạn cần xây dựng một mô hình có khả năng thay thế từng chú chó trong mỗi bức ảnh bằng một chú mèo, trong khi vẫn duy trì sự nhất quán về bối cảnh, ánh sáng và các yếu tố thị giác khác. 

Việc đánh giá độ tốt của mô hình chuyển đổi ảnh này sẽ được thực hiện thông qua một mô hình Chú thích ảnh (image-captioning model) được chúng tôi huấn luyện sẵn. Một mô hình chuyển đổi tốt sẽ tạo ra các bức ảnh mới mà trong đó, mô tả về các chú chó trong ảnh gốc sẽ chuyển thành mô tả về mèo, đồng thời vẫn giữ nguyên các yếu tố cốt lõi của bối cảnh.

Đối với bài toán này, bạn có thể tự do lựa chọn bất kỳ tập dữ liệu huấn luyện công khai nào. Nếu bạn muốn sử dụng dữ liệu huấn luyện riêng, hãy đảm bảo tải lên và chia sẻ trên một nền tảng lưu trữ công khai phù hợp, như Hugging Face, Kaggle, hoặc các nền tảng tương tự.

Dữ liệu. Dữ liệu gồm 2 tập như sau:

  • Public testset: (test.zip) Tập dữ liệu kiểm thử công khai, được sử dụng để các đội đánh giá hiệu quả của mô hình mà họ đã huấn luyện.
  • Private testset: Sẽ được công bố vào ngày cuối cùng.

Hai tập dữ liệu này được chia sẻ qua đường link NÀY

File test.zip bao gồm khoảng 300 ảnh định dạng JPEG (.jpg) được nén lại, mô tả những chú chó với đa
dạng bối cảnh, tư thế, tính chất. Mỗi tên ảnh có dạng image_{index}.jpg, trong đó index là chỉ số
tương ứng với ảnh.

Hướng dẫn nộp kết quả. (chi tiết xem tại phần Submission)

Đối với tác vụ này các đội đăng ký đội nộp kết quả qua form sau: https://forms.gle/SVAiBrCzjDEaw2yg9

Không được chỉnh sửa file kết quả do mô hình của đội sinh ra bằng cách gán nhãn thủ công các dữ liệu trong tập test (bao gồm public test lẫn private test) để nộp cho BTC.

Giai đoạn sơ khảo (public test): mỗi đội được phép nộp tối đa 2 lần mỗi ngày. Trong giai đoạn chung kết (private test) được phép nộp tối đa 1 lần mỗi ngày.

Các đội lọt vào vòng chung kết bắt buộc phải nộp báo cáo kỹ thuật và source code để BTC đánh giá tính đúng đắn của giải pháp và công bố kết quả cuối cùng.

Các đội nộp file mã nguồn notebook (đuôi .ipynb), trong đó có đầy đủ các bước cài đặt môi trường, xử lý dữ liệu, huấn luyện mô hình,... theo đúng thứ tự để BTC có thể reproduce lại được các mô hình.

Mã nguồn của các đội cần tuân thủ chặt chẽ định dạng dữ liệu đầu vào và kết quả trả ra để BTC sẽ chạy mã nguồn của các đội, đánh giá chất lượng (dựa trên các tiêu chí tối ưu đề ra) của kết quả đầu ra và xếp hạng.

Tiêu chí đánh giá. Mỗi bức ảnh kết quả (ảnh chú mèo) và ảnh gốc (ảnh chú chó) sẽ được đưa qua một mô hình chú thích ảnh đã được huấn luyện sẵn (pretrained image-captioning model), mô hình này do chúng tôi cung cấp. Đối với chú thích (caption) thu được từ ảnh kết quả, chúng tôi thay đổi tất cả từ cat thành dog. Hai captions từ mỗi ảnh sẽ tiếp tục được mã hóa bằng mô hình SBERT đã huấn luyện để tính toán độ tương đồng Cosine (Cosine Similarity). Điểm số cuối cùng của mô hình là giá trị trung bình của các cặp caption.

Quy định.  Nếu các đội muốn sử dụng các mô hình khuếch tán đã được huấn luyện trước (pre-trained diffusion models), chỉ được phép sử dụng các phiên bản sau:

  • https://huggingface.co/CompVis/stable-diffusion-v1-1
  • https://huggingface.co/CompVis/stable-diffusion-v1-2
  • https://huggingface.co/CompVis/stable-diffusion-v1-3
  • https://huggingface.co/CompVis/stable-diffusion-v1-4

Tiêu chí đánh giá

 Mỗi bức ảnh kết quả (ảnh chú mèo) và ảnh gốc (ảnh chú chó) sẽ được đưa qua một mô hình chú thích ảnh đã được huấn luyện sẵn (pretrained image-captioning model), mô hình này do chúng tôi cung cấp. Đối với chú thích (caption) thu được từ ảnh kết quả, chúng tôi thay đổi tất cả từ cat thành dog (Với những trường hợp caption trên ảnh gốc chứa 'cat' thì sẽ được đổi thành 'dog' để đánh giá.). Hai captions từ mỗi ảnh sẽ tiếp tục được mã hóa bằng mô hình SBERT đã huấn luyện để tính toán độ tương đồng Cosine (Cosine Similarity). Điểm số cuối cùng của mô hình là giá trị trung bình của các cặp caption.  

Thể lệ cuộc thi

Điều 1. Mục đích của cuộc thi

  • Đẩy mạnh ứng dụng AI vào trong mọi hoạt động, trong mọi lĩnh vực, giúp nâng cao hiệu quả SXKD các đơn vị trong Tập đoàn.
  • Tìm kiếm các điển hình tiên tiến trong lĩnh vực CNTT nói chung và AI nói riêng, thúc đẩy tinh thần làm chủ, đột phá, tiên phong dẫn dắt về công nghệ AI và ứng dụng AI trong hoạt động SXKD.
  • Duy trì sân chơi công nghệ thu hút số lượng lớn CBNV tham gia, tăng cường trao đổi, hợp tác, chia sẻ kiến thức và kinh nghiệm về ứng dụng AI, cộng hưởng giá trị, nâng cao tinh thần đoàn kết cho CBNV Tập đoàn.

Điều 2. Hình thức thi – đối tượng

  • Hình thức: Trực tuyến trên nền tảng AIHUB.ML.
  • Đối tượng dự thi: CBNV toàn Tập đoàn, tổ chức theo đội thi với số lượng tối đa 03 người/đội.

Điều 3. Nội dung đề thi, thời gian thi, thể lệ nộp bài và đánh giá kết quả thi

1. Nội dung đề thi

  • Đề thi được xây dựng theo 03 tác vụ thuộc ba lĩnh vựckhác nhau:
    • Tác vụ 1: Học máy (ML)
    • Tác vụ 2: Thị giác máy tính (CV)
    • Tác vụ 3: Xử lý ngôn ngữ tự nhiên (NLP)

2. Thời gian thi

  • Thời hạn thành lập đội hoặc sáp nhập nhóm: 28/10/2024 – 06/11/2024.
  • Vòng thi mở (public test): 28/10/2024 – 18/11/2024.
  • Vòng thi đóng (private test): 19/11/2024 - 20/11/2024.

3. Thể lệ nộp bài

  • Trong task này, số lần gửi tối đa trong mỗi giai đoạn:

    • Giai đoạn 1: 2 bài / ngày / đội
    • Giai đoạn 2: 1 bài / ngày / đội
  • Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.

4. Đánh giá kết quả

Kết quả thi được đánh giá dựa trên bảng xếp hạng (được chấm tự động) và các tiêu chí của cuộc thi (các đánh giá định lượng thủ công, các đánh giá định tính theo các chỉ số do BTC đưa ra) cùng các xác định về việc tuân thủ quy chế thi của các đội thi.

Điều 4. Điều kiện tham dự và thành lập/sáp nhập nhóm

  • Mỗi cá nhân tham gia phải tạo một tài khoản AIHUB.ML để gửi giải pháp cho cuộc thi. Mỗi cá nhân chỉ được cấp phép duy nhất một tài khoản.
  • Các cá nhân tham gia được phép thành lập đội với số lượng không quá 03 thành viên. Một cá nhân không thể tham gia vào nhiều hơn một đội. Mỗi thành viên trong đội phải là một cá nhân duy nhất sử dụng một tài khoản AIHUB.ML riêng biệt.
  • Việc hợp nhất đội thi được cho phép và có thể được thực hiện bởi trưởng nhóm, với điều kiện tổng số lần nộp bài của đội hợp nhất phải nhỏ hơn hoặc bằng số lần nộp bài tối đa cho phép tại thời điểm hợp nhất (số lần nộp bài tối đa bằng số lần nộp bài mỗi ngày nhân với số ngày cuộc thi đã diễn ra). Yêu cầu hợp nhất đội thi sẽ không được phép sau “Thời hạn sáp nhập nhóm”.
  • BTC không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội thi.

Điều 5. Yêu cầu và điều kiện đảm bảo đối với các cá nhân và đội tham gia thi

1. Yêu cầu và điều kiện đảm bảo chung

  • Mỗi cá nhân chỉ được nộp bài từ một tài khoản AIHUB.ML duy nhất.
  • Bằng cách gửi kết quả cho cuộc thi, các cá nhân tham gia đồng thuận việc công khai điểm số của mình tại các sự kiện liên quan của cuộc thi và trong các giấy tờ, thủ tục liên quan, theo quyết định của BTC.
  • Các cá nhân tham gia đảm bảo không có các hành vi gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác trong cuộc thi.
  • Các cá nhân tham gia đảm bảo tuân thủ các luật và quy định hiện hành, trong đó bao gồm nhưng không giới hạn về quyền sở hữu trí tuệ của bên thứ ba đối với chương trình do cá nhân phát triển trong quá trình diễn ra cuộc thi; luật và quy định hiện hành liên quan đến quyền riêng tư và bảo vệ dữ liệu.
  • Các cá nhân tham gia phải cung cấp mã nguồn của các bài dự thi cũng như các dữ liệu được tạo ra khi có yêu cầu của BTC, cho phép BTC sử dụng với bất kỳ mục đích nào mà không cần phê duyệt thêm.

2. Yêu cầu liên quan Dữ liệu

Bằng cách tải xuống hoặc truy cập dữ liệu do BTC cuộc thi cung cấp theo bất kỳ cách nào, người thi đồng ý với các điều khoản sau:

  • Người thi không được sử dụng dữ liệu khác ngoài các tập dữ liệu được cho phép bởi Ban tổ chức. Chi tiết về các tập dữ liệu được phép sử dụng sẽ được quy định cụ thể trong thuyết minh của từng Bảng. .
  • Người thi không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.
  • Người thi không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do BTC cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.
  • Người thi không được phép sử dụng dữ liệu để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.
  • Người thi hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình, đồng thời chịu trách nhiệm bảo vệ và bồi thường cho BTC cuộc thi, chống lại bất kỳ khiếu nại phát sinh nào từ việc sử dụng dữ liệu của người thi.

Điều 6. Xử lý các trường hợp vi phạm

Đội thi có thành viên vi phạm các nội dung đã nêu trong Điều 5 sẽ bị xử phạt như sau:

  • Gửi thông báo về hành vi của CBNV vi phạm về cho đơn vị chủ quản, yêu cầu đơn vị xem xét về việc hạ bậc KI Quý và năm của cá nhân.
  • Trừ điểm thi đua lĩnh vực Công nghệ thông tin của đơn vị.
  • Hủy bỏ kết quả thi.

Đối với task này, các đội phải đăng ký tại form sau: https://forms.gle/SVAiBrCzjDEaw2yg9

các đội submit kết quả tại đây: https://viettel-ai2024.gu-bdlab.net/

Lưu ý: Ảnh sinh ra được đặt cùng tên với ảnh đầu vào, cho toàn bộ ảnh vào một thư mục (tên bất kỳ), zip thư mục đó lại rồi nộp lên hệ thống

Private Test

Start: Nov. 19, 2024, midnight

Description: Đối với task này, các đội submit kết quả tại đây: https://viettel-ai2024.gu-bdlab.net/

Public Test

Start: Oct. 28, 2024, midnight

Description: Đối với task này, các đội submit kết quả tại đây: https://viettel-ai2024.gu-bdlab.net/

Competition Ends

Nov. 21, 2024, midnight

You must be logged in to participate in competitions.

Sign In