Chủ đề.
Chủ đề tác vụ thứ nhất của cuộc thi ViettelAI 2024 là "GỢI Ý SẢN PHẨM TRÊN SÀN THƯƠNG MẠI ĐIỆN TỬ".
Giới thiệu.
Thương mại điện tử đã và đang dần thay thế nhiều mô hình bán lẻ truyền thống nhờ vào tính tiện lợi vượt trội và đa dạng sản phẩm mà nó mang lại. Người tiêu dùng không cần phải đến cửa hàng, mà chỉ cần vài cú nhấp chuột là có thể tiếp cận hàng ngàn sản phẩm từ khắp nơi trên thế giới. Yếu tố này đã làm thay đổi toàn bộ cách thức mua sắm và tiêu dùng của hàng triệu người.
Một trong những thành phần quan trọng nhất làm nên thành công của thương mại điện tử chính là hệ thống gợi ý sản phẩm. Đây không chỉ là công cụ giúp người dùng khám phá sản phẩm một cách hiệu quả, mà còn đóng vai trò quan trọng trong việc nâng cao trải nghiệm mua sắm và tối ưu hóa lợi ích kinh doanh của các cửa hàng trực tuyến. Hệ gợi ý giúp cá nhân hóa trải nghiệm người dùng, tiết kiệm thời gian tìm kiếm, giải quyết vấn đề quá tải thông tin và tối ưu hóa lợi ích kinh doanh của cửa hàng.
Nhiệm vụ.
Nhiệm vụ của tác vụ này là cung cấp danh sách các sản phẩm được sắp xếp theo mức độ yêu thích để gợi ý cho mỗi người dùng từ một danh sách sản phẩm cho trước (gọi tắt là tập sản phẩm tiềm năng). Cụ thể, với mỗi người dùng, chúng tôi sử dụng một thuật toán cơ bản để lọc ra tập sản phẩm tiềm năng từ số lượng rất lớn các sản phẩm trên hệ thống. Hệ thống gợi ý sẽ sắp xếp các sản phẩm tiềm năng này để đưa ra gợi ý phù hợp cho người dùng.
Đầu vào là các bộ gồm định danh người dùng và danh sách 1000 sản phẩm tiềm năng. Đầu ra cho mỗi bộ gồm định danh người dùng và danh sách 1000 sản phẩm đã sắp xếp lại theo mức độ yêu thích.
Để huấn luyện hệ gợi ý, chúng tôi cung cấp tập dữ liệu huấn luyện chứa thông tin chuỗi lịch sử xem và mua sản phẩm của mỗi người dùng.
Cấu trúc dữ liệu.
Dữ liệu được chia thành 3 tập như sau:
Hai tập dữ liệu đầu sẽ được chia sẻ trước qua đường link NÀY.
Cụ thể ở file testset file:
Ở training file (training_set.csv):
Chú ý, trong training file, các hàng có cùng giá trị userid thể hiện chuỗi lịch sử xem và mua của người dùng đó, và được sắp xếp theo thứ tự thời gian từ cũ đến mới.
Hướng dẫn nộp kết quả.
(xem định dạng file nộp kết quả ở tab Định Dạng File Kết Quả và nộp file ở mục Participate) với quy định:
Không được chỉnh sửa file kết quả do mô hình của đội sinh ra bằng cách gán nhãn thủ công các dữ liệu trong tập test (bao gồm public test lẫn private test) để nộp cho BTC.
Giai đoạn sơ khảo (public test): mỗi đội được phép nộp tối đa 10 lần mỗi ngày. Trong giai đoạn chung kết (private test) được phép nộp tối đa 5 lần mỗi ngày.
Các đội lọt vào vòng chung kết bắt buộc phải nộp báo cáo kỹ thuật và source code để BTC đánh giá tính đúng đắn của giải pháp và công bố kết quả cuối cùng.
Các đội nộp file mã nguồn notebook (đuôi .ipynb), trong đó có đầy đủ các bước cài đặt môi trường, xử lý dữ liệu, huấn luyện mô hình,... theo đúng thứ tự để BTC có thể reproduce lại được các mô hình.
Mã nguồn của các đội cần tuân thủ chặt chẽ định dạng dữ liệu đầu vào và kết quả trả ra để BTC sẽ chạy mã nguồn của các đội, đánh giá chất lượng (dựa trên các tiêu chí tối ưu đề ra) của kết quả đầu ra và xếp hạng.
Tiêu chí đánh giá.
(NDCG@10)
Trong 1000 sản phẩm tiềm năng với mỗi người dùng userID, chỉ có một sản phẩm được mua bởi người dùng. Hệ gợi ý được kỳ vọng sẽ đưa ra kết quả sắp xếp sao cho sản phẩm được mua nằm ở vị trí top đầu của danh sách gợi ý.
Độ đo Normalized Discounted Cumulative Gain (NDCG) sẽ được sử dụng để đánh giá kết quả gợi ý. Cụ thể, độ đo NDCG@K sẽ được tính cho mỗi người dùng, với K là số lượng sản phẩm top đầu trong danh sách gợi ý. Giá trị trung bình của NDCG@K trên toàn bộ tập kiểm tra sẽ được sử dụng để đánh giá cuối cùng.
Normalized Discounted Cumulative Gain (NDCG): Không chỉ kiểm tra xem sản phẩm được mua có nằm trong top K, NDCG@K còn xem xét vị trí của sản phẩm được mua trong danh sách gợi ý. Nếu sản phẩm được mua nằm càng gần vị trí đầu tiên, giá trị NDCG@K càng cao. Cụ thể, đối với mỗi người dùng,
NDCG@K = log102 / log10(i+1) nếu sản phẩm được mua nằm ở vị trí i trong danh sách top K và NDCG@K= 0 nếu sản phẩm được mua không nằm trong top K.
Ở cuộc thi này, K = 10.
Điều 1. Mục đích của cuộc thi
Điều 2. Hình thức thi – đối tượng
1. Nội dung đề thi
2. Thời gian thi
3. Thể lệ nộp bài
Trong task này, số lần gửi tối đa trong mỗi giai đoạn:
Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.
4. Đánh giá kết quả
Kết quả thi được đánh giá dựa trên bảng xếp hạng (được chấm tự động) và các tiêu chí của cuộc thi (các đánh giá định lượng thủ công, các đánh giá định tính theo các chỉ số do BTC đưa ra) cùng các xác định về việc tuân thủ quy chế thi của các đội thi.
Điều 4. Điều kiện tham dự và thành lập/sáp nhập nhóm
Điều 5. Yêu cầu và điều kiện đảm bảo đối với các cá nhân và đội tham gia thi
1. Yêu cầu và điều kiện đảm bảo chung
2. Yêu cầu liên quan Dữ liệu
Bằng cách tải xuống hoặc truy cập dữ liệu do BTC cuộc thi cung cấp theo bất kỳ cách nào, người thi đồng ý với các điều khoản sau:
Đội thi có thành viên vi phạm các nội dung đã nêu trong Điều 5 sẽ bị xử phạt như sau:
Định Dạng của Dữ Liệu
Đội thi cần xuất ra file csv với cấu trúc y hệt testset csv file tương ứng. Đổi tên là predict.csv. Cụ thể:
Cột đầu chứa thông tin userId và 1000 cột sau chứa thông tin về itemId đã được sắp xếp. Sản phẩm nằm ở vị trí chỉ số cột càng nhỏ nghĩa là sản phẩm đó càng được người dùng yêu thích hơn.
Lưu ý: File predict.csv này không chứa index và header. Sau đó, đội thi nén file kết quả thành file .zip và nộp lên hệ thống.
Start: Oct. 28, 2024, midnight
Start: Nov. 18, 2024, 5 p.m.
Nov. 20, 2024, 5 p.m.
You must be logged in to participate in competitions.
Sign In