https://www.nature.com/articles/s41598-023-31340-1
스웨덴 그룹이고 유서 깊은 telemedicine platform 인 FirstDerm 의 study. 44 class 이고 55,364 images 로 학습되었고, test set (retrospective result) 에서는 Top-1 은 49.3%. 그러나 real-world setting 에서 AI 의 Top-1 이 39% 이고 이에 반해 GP 는 64%, DER 은 72% 라고.
이 결과를 보면 mult-class algorithm 만드는 것이 얼마나 어려운 것인지를 보여준다. 사실 몇만 케이스는 algorithm 을 만들기에 턱없이 부족. 요즘 언어모델이나 multimodal model 처럼 제대로 작동하려면 엄청나게 많은 data 가 필요하다.
이러니 26 class 로 Top-1 이 66% 나왔다는 구글의 Nature Medicine 결과를 믿을 수 없다는 것임. 거의 유사하게 16,530 cases, 대략 5~6만장이 사용되었음. 아직까지도 결과물 테스트 불가.
결론적으로 #AI model 을 직접 서빙해서 정확도를 보기 전에는 retrospective study 의 결과는 믿을 수 없음.
'컴퓨터 이야기~ > 소프트웨어' 카테고리의 다른 글
ChatGPT 통계 (0) | 2023.06.06 |
---|---|
CUDA programming 책 (0) | 2023.05.28 |
GPT-4 의 시험 성적 (0) | 2023.03.16 |
NFS 상에서 많은 파일을 다룰때 느려지는 현상 (0) | 2023.02.11 |
Model Derm - Skin Lesion 개발 계획 (0) | 2022.01.02 |