Công nghệ chuyển đổi đối tượng trong ảnh đang trở thành một công cụ quan trọng, mang lại sự tiện lợi và khả năng sáng tạo không giới hạn trong nhiều lĩnh vực như thiết kế, quảng cáo, và truyền thông. Trước đây, để thay đổi một đối tượng trong ảnh, người dùng cần phải có kỹ năng chỉnh sửa chuyên sâu hoặc phải chụp lại bức ảnh theo ý muốn. Giờ đây, với sự phát triển của trí tuệ nhân tạo và các mô hình học sâu, việc này đã trở nên dễ dàng hơn bao giờ hết.
Hãy tưởng tượng một người chụp một bức ảnh có chú chó và muốn thay thế nó bằng một con mèo mà không làm thay đổi bối cảnh, nội dung tổng thể của bức ảnh. Yêu cầu đặt ra là chú mèo phải có những đặc điểm tương đồng với chú chó gốc, như dáng vẻ, màu lông, tư thế, ..., sao cho sự thay thế này không làm ảnh hưởng đến ánh sáng, bố cục và phông nền của bức ảnh.
Chủ đề. "CHUYỂN ĐỔI HỈNH ẢNH CHÓ SANG HÌNH ẢNH MÈO".
Nhiệm vụ. Nhiệm vụ của bạn là phát triển một mô hình chuyển đổi một đối tượng cụ thể trong một bức ảnh sang một đối tượng khác, đáp ứng các yêu cầu khắt khe về việc bảo toàn bối cảnh và nội dung gốc của ảnh. Cụ thể, bạn được cung cấp một tập dữ liệu gồm các bức ảnh chụp các chú chó, và bạn cần xây dựng một mô hình có khả năng thay thế từng chú chó trong mỗi bức ảnh bằng một chú mèo, trong khi vẫn duy trì sự nhất quán về bối cảnh, ánh sáng và các yếu tố thị giác khác.
Việc đánh giá độ tốt của mô hình chuyển đổi ảnh này sẽ được thực hiện thông qua một mô hình Chú thích ảnh (image-captioning model) được chúng tôi huấn luyện sẵn. Một mô hình chuyển đổi tốt sẽ tạo ra các bức ảnh mới mà trong đó, mô tả về các chú chó trong ảnh gốc sẽ chuyển thành mô tả về mèo, đồng thời vẫn giữ nguyên các yếu tố cốt lõi của bối cảnh.
Đối với bài toán này, bạn có thể tự do lựa chọn bất kỳ tập dữ liệu huấn luyện công khai nào. Nếu bạn muốn sử dụng dữ liệu huấn luyện riêng, hãy đảm bảo tải lên và chia sẻ trên một nền tảng lưu trữ công khai phù hợp, như Hugging Face, Kaggle, hoặc các nền tảng tương tự.
Dữ liệu. Dữ liệu gồm 2 tập như sau:
Hai tập dữ liệu này được chia sẻ qua đường link NÀY.
File test.zip bao gồm khoảng 300 ảnh định dạng JPEG (.jpg) được nén lại, mô tả những chú chó với đa
dạng bối cảnh, tư thế, tính chất. Mỗi tên ảnh có dạng image_{index}.jpg, trong đó index là chỉ số
tương ứng với ảnh.
Hướng dẫn nộp kết quả. (chi tiết xem tại phần Submission)
Đối với tác vụ này các đội đăng ký đội nộp kết quả qua form sau: https://forms.gle/SVAiBrCzjDEaw2yg9
Không được chỉnh sửa file kết quả do mô hình của đội sinh ra bằng cách gán nhãn thủ công các dữ liệu trong tập test (bao gồm public test lẫn private test) để nộp cho BTC.
Giai đoạn sơ khảo (public test): mỗi đội được phép nộp tối đa 2 lần mỗi ngày. Trong giai đoạn chung kết (private test) được phép nộp tối đa 1 lần mỗi ngày.
Các đội lọt vào vòng chung kết bắt buộc phải nộp báo cáo kỹ thuật và source code để BTC đánh giá tính đúng đắn của giải pháp và công bố kết quả cuối cùng.
Các đội nộp file mã nguồn notebook (đuôi .ipynb), trong đó có đầy đủ các bước cài đặt môi trường, xử lý dữ liệu, huấn luyện mô hình,... theo đúng thứ tự để BTC có thể reproduce lại được các mô hình.
Mã nguồn của các đội cần tuân thủ chặt chẽ định dạng dữ liệu đầu vào và kết quả trả ra để BTC sẽ chạy mã nguồn của các đội, đánh giá chất lượng (dựa trên các tiêu chí tối ưu đề ra) của kết quả đầu ra và xếp hạng.
Tiêu chí đánh giá. Mỗi bức ảnh kết quả (ảnh chú mèo) và ảnh gốc (ảnh chú chó) sẽ được đưa qua một mô hình chú thích ảnh đã được huấn luyện sẵn (pretrained image-captioning model), mô hình này do chúng tôi cung cấp. Đối với chú thích (caption) thu được từ ảnh kết quả, chúng tôi thay đổi tất cả từ cat thành dog. Hai captions từ mỗi ảnh sẽ tiếp tục được mã hóa bằng mô hình SBERT đã huấn luyện để tính toán độ tương đồng Cosine (Cosine Similarity). Điểm số cuối cùng của mô hình là giá trị trung bình của các cặp caption.
Quy định. Nếu các đội muốn sử dụng các mô hình khuếch tán đã được huấn luyện trước (pre-trained diffusion models), chỉ được phép sử dụng các phiên bản sau:
Tiêu chí đánh giá
Mỗi bức ảnh kết quả (ảnh chú mèo) và ảnh gốc (ảnh chú chó) sẽ được đưa qua một mô hình chú thích ảnh đã được huấn luyện sẵn (pretrained image-captioning model), mô hình này do chúng tôi cung cấp. Đối với chú thích (caption) thu được từ ảnh kết quả, chúng tôi thay đổi tất cả từ cat thành dog (Với những trường hợp caption trên ảnh gốc chứa 'cat' thì sẽ được đổi thành 'dog' để đánh giá.). Hai captions từ mỗi ảnh sẽ tiếp tục được mã hóa bằng mô hình SBERT đã huấn luyện để tính toán độ tương đồng Cosine (Cosine Similarity). Điểm số cuối cùng của mô hình là giá trị trung bình của các cặp caption.
Điều 1. Mục đích của cuộc thi
Điều 2. Hình thức thi – đối tượng
1. Nội dung đề thi
2. Thời gian thi
3. Thể lệ nộp bài
Trong task này, số lần gửi tối đa trong mỗi giai đoạn:
Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.
4. Đánh giá kết quả
Kết quả thi được đánh giá dựa trên bảng xếp hạng (được chấm tự động) và các tiêu chí của cuộc thi (các đánh giá định lượng thủ công, các đánh giá định tính theo các chỉ số do BTC đưa ra) cùng các xác định về việc tuân thủ quy chế thi của các đội thi.
Điều 4. Điều kiện tham dự và thành lập/sáp nhập nhóm
Điều 5. Yêu cầu và điều kiện đảm bảo đối với các cá nhân và đội tham gia thi
1. Yêu cầu và điều kiện đảm bảo chung
2. Yêu cầu liên quan Dữ liệu
Bằng cách tải xuống hoặc truy cập dữ liệu do BTC cuộc thi cung cấp theo bất kỳ cách nào, người thi đồng ý với các điều khoản sau:
Đội thi có thành viên vi phạm các nội dung đã nêu trong Điều 5 sẽ bị xử phạt như sau:
Đối với task này, các đội phải đăng ký tại form sau: https://forms.gle/SVAiBrCzjDEaw2yg9
các đội submit kết quả tại đây: https://viettel-ai2024.gu-bdlab.net/.
Lưu ý: Ảnh sinh ra được đặt cùng tên với ảnh đầu vào, cho toàn bộ ảnh vào một thư mục (tên bất kỳ), zip thư mục đó lại rồi nộp lên hệ thống
Start: Nov. 19, 2024, midnight
Description: Đối với task này, các đội submit kết quả tại đây: https://viettel-ai2024.gu-bdlab.net/
Start: Oct. 28, 2024, midnight
Description: Đối với task này, các đội submit kết quả tại đây: https://viettel-ai2024.gu-bdlab.net/
Nov. 21, 2024, midnight
You must be logged in to participate in competitions.
Sign In