BTC để metadata quá lộ liễu, kết quả là chỉ với trường giới tính AUC đã được 0.77
Posted by: VuiChoiCoThuong @ July 1, 2021, 6:09 p.m.BTC nên xem xét khả năng này, mục tiêu của cuộc thi là phân loại bệnh nhân dựa trên spectrogram của audio, nếu như chỉ sử dụng metadata lại có thể ra kq tốt hơn sử dụng spectrogram thì kết quả của cuộc thi này không có tính thực tiễn.
Posted by: tinyswish @ July 2, 2021, 5:01 a.m.Rất đồng ý ạ, đây là một cuộc thi tìm kiếm giải pháp nên dữ liệu ở các vòng public và private nên được tổ chức tốt ạ.
Ở vòng khởi động, em sử dụng các mô hình ResNet, EfficientNet (mô hình nhỏ nhất + dropout rate lớn) trên spectrogram nhưng mô hình hầu như không học được gì ạ.
Kết quả validation AUC (OOF AUC) của 5 models chỉ 0.63, public AUC thì do em có sử dụng thêm trick voting nên được 0.72 còn private AUC chỉ có 0.64 ạ.
Mình cũng đồng ý về việc ban tổ chức xem xét lại dữ liệu tập training cho đợt sắp tới.
Mình sử dụng 1 model CNN khoảng 200k tham số. Training rất khó khăn và kết quả tốt nhất model là 0.739 trên public test. Mong chờ các solution từ đội tôp đầu nhưng khi thấy mọi người dùng age và gender cũng đạt 0.8 thì hơi hụt hẫng.
Một điểm mình cũng băn khoăn đó là dữ liệu training liệu có đang thực sự đúng không? Vì trong quá trình làm Mel-CNN mình cảm giác đang có vấn đề trên tập dữ liệu này.
Chào bạn,
BTC đã nhận được ý kiến đóng góp của bạn cũng như mọi người về dữ liệu.
Về cơ bản, dữ liệu bị nhiễu, bị leak có thể tồn tại ở bất kỳ tasks nào, nên BTC cũng rất mong nhận đc thêm nhiều phân tích, đánh giá của các đội về dữ liệu. Chẳng hạn khi bạn đánh giá “cảm giác đang có vđề trên giữ liệu này”, thì BTC mong nhận đc các phân tích chi tiết hơn về nguyên nhân, từ đó bản thân các đội sẽ có hướng để xử lý noisy data. Cụ thể trong báo cáo cho warm-up sắp tới, BTC sẽ có hướng dẫn về nội dung báo cáo để các đội có thêm phân tích chi tiết hơn trong báo cáo.
BTC xin chân thành cảm ơn.
Posted by: aicovidvn115m-organizers @ July 2, 2021, 10:43 a.m.