Tiêu chí đánh giá. Mỗi bức ảnh kết quả (ảnh chú mèo) và ảnh gốc (ảnh chú chó) sẽ được đưa qua một mô hình chú thích ảnh đã được huấn luyện sẵn (pretrained image-captioning model)
Câu hỏi:
pretrained image-captioning model mà BTC có độ chính xác như thế nào ? được training với bao nhiêu domain ? Tập ảnh train có đủ mạnh để nhận diện không (Ảnh Con Cáo đưa vào thì ra con gì ?)