https://www.nature.com/articles/s41598-023-31340-1

스웨덴 그룹이고 유서 깊은 telemedicine platform 인 FirstDerm 의 study. 44 class 이고 55,364 images 로 학습되었고, test set (retrospective result) 에서는 Top-1 은 49.3%. 그러나 real-world setting 에서 AI 의 Top-1 이 39% 이고 이에 반해 GP 는 64%, DER 은 72% 라고. 


이 결과를 보면 mult-class algorithm 만드는 것이 얼마나 어려운 것인지를 보여준다. 사실 몇만 케이스는 algorithm 을 만들기에 턱없이 부족. 요즘 언어모델이나 multimodal model 처럼 제대로 작동하려면 엄청나게 많은 data 가 필요하다. 
이러니 26 class 로 Top-1 이 66% 나왔다는 구글의 Nature Medicine 결과를 믿을 수 없다는 것임. 거의 유사하게 16,530 cases, 대략 5~6만장이 사용되었음. 아직까지도 결과물 테스트 불가.

 

결론적으로 #AI model 을 직접 서빙해서 정확도를 보기 전에는 retrospective study 의 결과는 믿을 수 없음.

댓글을 달아 주세요