In many research disciplines, hypothesis tests are applied to evaluate whether findings are statistically significant or could be explained by chance. The Wilcoxon–Mann–Whitney (WMW) test is among the most popular hypothesis tests in medicine and life science to analyze if two groups of samples are equally distributed. This nonparametric statistical homogeneity test is commonly applied in molecular diagnosis. Generally, the solution of the WMW test takes a high combinatorial effort for large sample cohorts containing a significant number of ties. Hence, P value is frequently approximated by a normal distribution. We developed EDISON-WMW, a new approach to calculate the exact permutation of the two-tailed unpaired WMW test without any corrections required and allowing for ties. The method relies on dynamic programing to solve the combinatorial problem of the WMW test efficiently. Beyond a straightforward implementation of the algorithm, we presented different optimization strategies and developed a parallel solution. Using our program, the exact P value for large cohorts containing more than 1000 samples with ties can be calculated within minutes. We demonstrate the performance of this novel approach on randomly-generated data, benchmark it against 13 other commonly-applied approaches and moreover evaluate molecular biomarkers for lung carcinoma and chronic obstructive pulmonary disease (COPD). We found that approximated P values were generally higher than the exact solution provided by EDISON-WMW. Importantly, the algorithm can also be applied to high-throughput omics datasets, where hundreds or thousands of features are included. To provide easy access to the multi-threaded version of EDISON-WMW, a web-based solution of our algorithm is freely available at http://www.ccb.uni-saarland.de/software/wtest/.
In vielen Forschungsgebieten werden Hypothesentests genutzt, um festzustellen, ob ein Ergebnis statistisch signifikant ist, oder durch Zufall entstanden sein könnte. Der Wilcoxon-Mann-Whitney (WMW) Test zählt zu einem der bekanntesten Hypothesentests, die in den Bereichen der Medizin- und Biowissenschaften genutzt wird, um Gleichheit der Verteilung zweier Testgruppen zu evaluieren. Dieser nicht-parametrische statistische Homogenitätstest wird oft im Bereich der molekularen Diagnostik genutzt. Um den WMW Test zu lösen, entsteht ein hoher kombinatorischer Aufwand. Deshalb wird der p-Wert in solchen Fällen oft mit Hilfe einer Normalverteilung abgeschätzt. Aus diesem Grund entwickelten wir EDISON-WMW, ein neuer Ansatz, der die exakte Permutation des ungepaarten WMW Tests ohne die Anwendung von Korrekturen, selbst für Gruppen mit vielen Duplikaten berechnet. Der Ansatz nutzt dynamische Programmierung um das kombinatorische Problem effizient zu lösen. Neben der naiven Implementierung des Algorithmus, präsentieren wir verschiedene Optimierungsstrategien und einen parallelisierten Ansatz. Mit EDISON-WMW kann der exakte p-Wert für Testgruppen mit mehr als 1000 Elementen, die Duplikate enthalten, innerhalb von Minuten berechnet werden. Die Performance des Tests wurde sowohl mit zufällig generierten Daten, als auch gegen 13 bereits bekannte Methoden getestet. Des Weiteren evaluierten wir mit EDISON-WMW molekulare Biomarker für Lungenkrebs und chronisch obstruktive Lungenerkrankungen. Als Resultat dieser Tests stellten wir fest, dass die approximierten p-Werte anderer Ansätze grundsätzlich höher sind als die exakt berechneten p-Werte von EDISON-WMW. Zudem kann der Ansatz auch genutzt werden um hight-throughput Omics mit hunderten oder tausenden von Eigenschaften zu untersuchen. Um die parallelisierte Version von EDISON-WMW öffentlich zugänglich zu machen, haben wir EDISON-WMW als kostenlose Webapplikation unter http://www.ccb.uni-saarland.de/software/wtest/ bereit gestellt.