https://www.nature.com/articles/s41598-023-31340-1

스웨덴 그룹이고 유서 깊은 telemedicine platform 인 FirstDerm 의 study. 44 class 이고 55,364 images 로 학습되었고, test set (retrospective result) 에서는 Top-1 은 49.3%. 그러나 real-world setting 에서 AI 의 Top-1 이 39% 이고 이에 반해 GP 는 64%, DER 은 72% 라고. 


이 결과를 보면 mult-class algorithm 만드는 것이 얼마나 어려운 것인지를 보여준다. 사실 몇만 케이스는 algorithm 을 만들기에 턱없이 부족. 요즘 언어모델이나 multimodal model 처럼 제대로 작동하려면 엄청나게 많은 data 가 필요하다. 
이러니 26 class 로 Top-1 이 66% 나왔다는 구글의 Nature Medicine 결과를 믿을 수 없다는 것임. 거의 유사하게 16,530 cases, 대략 5~6만장이 사용되었음. 아직까지도 결과물 테스트 불가.

 

결론적으로 #AI model 을 직접 서빙해서 정확도를 보기 전에는 retrospective study 의 결과는 믿을 수 없음.

'컴퓨터 이야기~ > 소프트웨어' 카테고리의 다른 글

ChatGPT 통계  (0) 2023.06.06
CUDA programming 책  (0) 2023.05.28
GPT-4 의 시험 성적  (0) 2023.03.16
NFS 상에서 많은 파일을 다룰때 느려지는 현상  (0) 2023.02.11
Model Derm - Skin Lesion 개발 계획  (0) 2022.01.02
,