R-Syn-1 R-Syn-Max R-Sem S-Syn-1 S-Syn-Max S-Sem-R S-Sem-W-1 S-Sem-W-max total
Qwen-3.5-397B 0.941 (±0.215) 0.994 (±0.015) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.940 (±0.211) 0.940 (±0.211) 0.977 (±0.133)
Claude Opus 4.6 0.934 (±0.234) 0.996 (±0.013) 0.657 (±0.415) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.747 (±0.362) 0.837 (±0.311) 0.896 (±0.270)
Claude Sonnet 4.6 0.934 (±0.234) 0.996 (±0.013) 0.282 (±0.300) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.747 (±0.362) 0.797 (±0.338) 0.844 (±0.321)
Gemini 3 Flash Preview 0.961 (±0.168) 0.995 (±0.014) 0.973 (±0.061) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.760 (±0.367) 0.850 (±0.312) 0.942 (±0.200)
GPT5.2-chat 0.962 (±0.168) 0.995 (±0.014) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.807 (±0.332) 0.877 (±0.276) 0.955 (±0.178)
GPT5.4 2026/03 0.934 (±0.234) 0.996 (±0.013) 0.998 (±0.020) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.647 (±0.388) 0.687 (±0.381) 0.908 (±0.253)
Claude 3.5 Haiku 0.937 (±0.203) 0.984 (±0.029) 0.779 (±0.395) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.817 (±0.325) 0.887 (±0.266) 0.925 (±0.232)
Claude 3.5 Sonnet 0.950 (±0.175) 0.990 (±0.022) 0.832 (±0.370) 0.980 (±0.125) 1.000 (±0.000) 1.000 (±0.000) 0.857 (±0.295) 0.857 (±0.295) 0.933 (±0.222)
Deepseek-Coder-33B 0.773 (±0.366) 0.882 (±0.269) 0.263 (±0.297) 0.943 (±0.221) 0.984 (±0.112) 0.313 (±0.309) 0.689 (±0.379) 0.703 (±0.374) 0.694 (±0.396)
Deepseek-R1 0.955 (±0.174) 0.991 (±0.020) 0.992 (±0.089) 0.935 (±0.247) 1.000 (±0.000) 1.000 (±0.000) 0.746 (±0.382) 0.832 (±0.316) 0.931 (±0.226)
Deepseek-Chat-v3 0.843 (±0.347) 0.991 (±0.020) 0.591 (±0.466) 0.957 (±0.202) 0.997 (±0.050) 0.923 (±0.214) 0.702 (±0.384) 0.782 (±0.348) 0.848 (±0.326)
Gemini 1.5 Flash 0.920 (±0.242) 0.983 (±0.028) 0.878 (±0.325) 0.865 (±0.324) 0.910 (±0.272) 1.000 (±0.000) 0.850 (±0.304) 0.850 (±0.304) 0.907 (±0.263)
Gemini 1.5 Pro 0.887 (±0.291) 0.966 (±0.127) 0.796 (±0.399) 0.845 (±0.339) 0.905 (±0.286) 1.000 (±0.000) 0.883 (±0.276) 0.883 (±0.276) 0.896 (±0.282)
Gemini 2.0 Flash Exp 0.986 (±0.025) 0.988 (±0.024) 0.931 (±0.197) 0.994 (±0.079) 1.000 (±0.000) 1.000 (±0.000) 0.604 (±0.394) 0.657 (±0.387) 0.895 (±0.260)
Llama-3.1-70B 0.908 (±0.234) 0.973 (±0.034) 0.559 (±0.484) 0.997 (±0.050) 0.997 (±0.050) 1.000 (±0.000) 0.694 (±0.381) 0.754 (±0.361) 0.860 (±0.311)
Llama-3.1-8B 0.779 (±0.375) 0.915 (±0.228) 0.462 (±0.421) 0.401 (±0.475) 0.521 (±0.477) 0.535 (±0.377) 0.273 (±0.401) 0.355 (±0.425) 0.530 (±0.452)
Llama-3.2-1B 0.250 (±0.366) 0.411 (±0.409) 0.159 (±0.254) 0.026 (±0.143) 0.079 (±0.260) 0.021 (±0.070) 0.010 (±0.050) 0.027 (±0.073) 0.123 (±0.276)
Llama-3.2-3B 0.402 (±0.452) 0.773 (±0.332) 0.344 (±0.397) 0.196 (±0.374) 0.322 (±0.444) 0.308 (±0.373) 0.120 (±0.256) 0.212 (±0.308) 0.335 (±0.416)
Llama-3.3-70B 0.975 (±0.032) 0.978 (±0.029) 0.595 (±0.487) 0.985 (±0.122) 1.000 (±0.000) 1.000 (±0.000) 0.617 (±0.398) 0.671 (±0.385) 0.853 (±0.318)
Llama-3.0-70B 0.961 (±0.114) 0.974 (±0.033) 0.523 (±0.480) 0.955 (±0.208) 0.990 (±0.099) 1.000 (±0.000) 0.645 (±0.405) 0.731 (±0.367) 0.847 (±0.324)
Llama-3.0-8B 0.586 (±0.426) 0.632 (±0.416) 0.219 (±0.290) 0.271 (±0.445) 0.425 (±0.488) 0.615 (±0.337) 0.281 (±0.397) 0.445 (±0.417) 0.434 (±0.435)
Llama-4-Maverick 0.870 (±0.241) 0.974 (±0.033) 0.655 (±0.465) 0.960 (±0.196) 1.000 (±0.000) 0.910 (±0.244) 0.687 (±0.381) 0.815 (±0.327) 0.859 (±0.305)
GPT3.5 2024/01 0.975 (±0.126) 0.995 (±0.014) 0.411 (±0.442) 0.944 (±0.230) 1.000 (±0.000) 0.696 (±0.374) 0.674 (±0.387) 0.707 (±0.376) 0.800 (±0.356)
GPT4o 2024/11 0.937 (±0.212) 0.986 (±0.024) 0.726 (±0.377) 1.000 (±0.000) 1.000 (±0.000) 0.881 (±0.183) 0.817 (±0.325) 0.867 (±0.286) 0.902 (±0.244)
GPT4o-mini 2024/07 0.919 (±0.232) 0.983 (±0.030) 0.384 (±0.415) 0.921 (±0.246) 0.960 (±0.174) 0.962 (±0.089) 0.709 (±0.385) 0.777 (±0.349) 0.827 (±0.333)
GPTo1-mini 2024/09 0.835 (±0.351) 0.992 (±0.018) 0.994 (±0.031) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.697 (±0.379) 0.767 (±0.354) 0.911 (±0.251)
GPTo1-pre 2024/09 0.911 (±0.256) 0.992 (±0.020) 0.658 (±0.373) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.742 (±0.365) 0.812 (±0.329) 0.889 (±0.268)
OpenCoder-8B 0.746 (±0.405) 0.817 (±0.354) 0.167 (±0.285) 0.622 (±0.482) 0.737 (±0.437) 0.400 (±0.422) 0.459 (±0.422) 0.509 (±0.417) 0.557 (±0.454)
Phi-3.5-mini 0.608 (±0.412) 0.639 (±0.390) 0.176 (±0.297) 0.637 (±0.466) 0.683 (±0.450) 0.450 (±0.381) 0.309 (±0.367) 0.350 (±0.371) 0.481 (±0.432)
Phi-3.5-MoE 0.831 (±0.296) 0.841 (±0.287) 0.517 (±0.421) 0.808 (±0.391) 0.932 (±0.238) 0.688 (±0.185) 0.637 (±0.394) 0.648 (±0.389) 0.738 (±0.359)
Phi-3.0-medium-128k 0.838 (±0.318) 0.886 (±0.257) 0.248 (±0.364) 0.547 (±0.475) 0.603 (±0.466) 0.625 (±0.316) 0.360 (±0.412) 0.385 (±0.417) 0.561 (±0.439)
Phi-3.0-mini-128k 0.582 (±0.424) 0.660 (±0.388) 0.263 (±0.333) 0.486 (±0.479) 0.549 (±0.480) 0.428 (±0.336) 0.231 (±0.291) 0.245 (±0.292) 0.431 (±0.415)
Phi-3.0-small-128k 0.346 (±0.394) 0.432 (±0.385) 0.284 (±0.364) 0.366 (±0.427) 0.394 (±0.429) 0.593 (±0.487) 0.278 (±0.352) 0.300 (±0.356) 0.374 (±0.413)
Qwen-2.0-0.5B 0.068 (±0.159) 0.076 (±0.171) 0.085 (±0.205) 0.005 (±0.071) 0.012 (±0.111) 0.040 (±0.136) 0.006 (±0.072) 0.010 (±0.080) 0.038 (±0.138)
Qwen-2.0-1.5B 0.126 (±0.294) 0.145 (±0.314) 0.222 (±0.349) 0.293 (±0.448) 0.351 (±0.465) 0.154 (±0.196) 0.105 (±0.177) 0.115 (±0.182) 0.189 (±0.332)
Qwen-2.5-0.5B 0.053 (±0.153) 0.101 (±0.235) 0.083 (±0.199) 0.157 (±0.360) 0.185 (±0.384) 0.071 (±0.179) 0.061 (±0.128) 0.064 (±0.129) 0.097 (±0.244)
Qwen-2.5-14B 0.781 (±0.393) 0.922 (±0.245) 0.331 (±0.432) 0.897 (±0.303) 0.910 (±0.286) 0.933 (±0.240) 0.658 (±0.378) 0.671 (±0.374) 0.763 (±0.390)
Qwen-2.5-1.5B 0.470 (±0.459) 0.584 (±0.452) 0.266 (±0.339) 0.494 (±0.485) 0.527 (±0.482) 0.127 (±0.268) 0.186 (±0.272) 0.244 (±0.326) 0.362 (±0.428)
Qwen-2.5-32B 0.979 (±0.030) 0.982 (±0.028) 0.603 (±0.471) 0.992 (±0.080) 1.000 (±0.000) 0.800 (±0.400) 0.603 (±0.391) 0.651 (±0.388) 0.826 (±0.341)
Qwen-2.5-3B 0.718 (±0.410) 0.857 (±0.292) 0.374 (±0.434) 0.733 (±0.431) 0.803 (±0.384) 0.453 (±0.451) 0.407 (±0.395) 0.479 (±0.394) 0.603 (±0.441)
Qwen-2.5-72B 0.871 (±0.317) 0.987 (±0.025) 0.614 (±0.471) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.731 (±0.369) 0.811 (±0.329) 0.877 (±0.300)
Qwen-2.0-57B-A14B 0.741 (±0.399) 0.932 (±0.173) 0.222 (±0.370) 0.860 (±0.345) 0.895 (±0.307) 0.630 (±0.438) 0.510 (±0.399) 0.599 (±0.393) 0.673 (±0.424)
Qwen-2.5-7B 0.966 (±0.139) 0.973 (±0.119) 0.329 (±0.411) 0.917 (±0.258) 0.976 (±0.136) 0.586 (±0.459) 0.565 (±0.397) 0.603 (±0.391) 0.739 (±0.394)
Qwen-2.5-Coder-32B 0.937 (±0.219) 0.991 (±0.017) 0.478 (±0.476) 1.000 (±0.000) 1.000 (±0.000) 1.000 (±0.000) 0.814 (±0.325) 0.830 (±0.314) 0.881 (±0.297)
Qwen-2.0-72B 0.964 (±0.040) 0.971 (±0.038) 0.339 (±0.426) 0.950 (±0.199) 1.000 (±0.000) 1.000 (±0.000) 0.630 (±0.380) 0.688 (±0.365) 0.818 (±0.338)
Qwen-2.0-7B 0.566 (±0.452) 0.739 (±0.405) 0.232 (±0.305) 0.799 (±0.397) 0.836 (±0.365) 0.573 (±0.476) 0.298 (±0.359) 0.369 (±0.389) 0.551 (±0.452)
Qwen-3-235B 0.912 (±0.260) 0.993 (±0.017) 0.980 (±0.139) 0.960 (±0.196) 0.993 (±0.086) 1.000 (±0.000) 0.704 (±0.396) 0.813 (±0.337) 0.919 (±0.246)