Wer einen Job in Data Science oder Künstlicher Intelligenz anstrebt, fragt sich wahrscheinlich, was er als Erstes lernen soll: Mathe, Python oder gleich beides?
Die Antwort lautet: beides. Keinesfalls dürfen Sie Mathematik vernachlässigen.
Mathematik ist ein ganz eigenes Fach. Es stellt keine -logie wie etwas Theologie oder Biologie dar. Das Wort stammt vielmehr von dem griechischen Begriff „mathematikos“, was eigentlich nur „Kunst des Lernens“ bedeutet. Es stellt also unsere Fähigkeit zu lernen dar.
Leider wird uns an der Schule vermittelt, dass sich Mathematik um Zahlen dreht. Tatsächlich gibt es zwei Sorten von Mathematikern: Die, die zählen können, und die, die es nicht können. Erst an der Uni lernen wir, dass die Zahlen nur nebensächlich sind, während sich die Mathematik tatsächlich um Ideen, Logik und Intuition dreht – es geht um Wahrheit.
Der französische Mathematiker Jacques Hadamard glaubte, dass sie sich vor allem mit letzterer beschäftigt, „da die Logik lediglich die Eroberungen der Intuition sanktioniere“. Intuition beginnt mit Beobachtung, ebenso wie die Philosophie mit dem Wundern beginnt, und zwar mit einer tiefen und durchdachten Beobachtung und dem Wunsch, die Wahrheit herauszufinden. Genau dies stellt das Ziel eines Data Scientists dar.
Doch die Versuchung der Komplexität vereitelt oft die Anstrengungen eines Mathematikers. Sobald man die Black-Scholes-Merton Optionspreistheorie gelernt hat, für die sie immerhin einen Nobelpreis erhalten haben, beginnt der Dämon der Komplexität in Ihr Ohr zu flüstern. „Wieso beschränkt Ihr Euch auf einfache Optionen? Denkt Euch doch die komplizierteste Berechnung aus, für die Ihr einen Preis finden könnt!“ Hier sind Urteilsvermögen und Selbstkritik gefordert: Erhöhen wir die Komplexität, weil es wirklich erforderlich ist, oder weil wir uns beweisen wollen, wie klug wir sind? Isaac Newton schrieb in seinem Werk über die Apokalypse: „Die Wahrheit wird immer in der Einfachheit gefunden und nicht in der Vervielfachung und Verwirrung der Dinge.“ Doch wie lässt sich wahre Komplexität von Unordnung, ein Signal von Krach unterscheiden?
Tatsächlich sind einige der einfacheren Gebiete der Mathematik für Data Scientists besonders nützlich. Wer in Data Science oder Maschinenlernen arbeiten möchte, muss sich auf jeden Fall mit stochastischen Berechnungen auskennen, aber auch in den unten genannten Gebieten:
1. Lineare Algebra
Sie müssen sich mit Linearer Algebra auskennen, wenn Sie in Data Science und Maschinenlernen arbeiten wollen, weil sie Ihnen bei Matrizen helfen. Das sind mathematische Objekte, die aus vielen Zahlen bestehen, die in einem Gitter organisiert sind. Daten, wie sie einem Data Scientist vorliegen, stammen aus einer Matrix – der Datenmatrix – von n Beobachtungen mit p Merkmalen, also einem n-p-Gitter.
2. Wahrscheinlichkeitstheorie
Die Grundlagen der Wahrscheinlichkeitstheorie – nicht die theoretische Wahrscheinlichkeitstheorie – helfen einem Data Scientist mit Unsicherheit umzugehen und dies in Modellen niederzulegen. Frequentisten, Bayesianer und Quantenphysiker argumentieren bis heute, dass Wahrscheinlichkeit Wirklichkeit ist. In einigen Sprachen wie dem Russischen und Ukrainischen stammt der Begriff der Wahrscheinlichkeit von „Glauben“. Dagegen drücken sich Pragmatiker wie Andrey Kolmogorov um die Frage und fordern Axiome, die beschreiben, wie sich Wahrscheinlichkeit verhält und nicht was sie ist. Im Grunde heißt das: Stellt keine Fragen, sondern nutzt die Axiome.
3. Statistik
Nach der Wahrscheinlichkeitstheorie kommt die Statistik. Wie Ian Hacking bemerkt hat, „Die ruhigen Statistiker haben unsere Welt verändert, nicht indem sie neue Fakten entdeckt haben, sondern Meinungen formten.“ Lesen Sie Darrell Huffs Buch „Lügen mit Statistiken“, nur um zu lernen, wie man bei der Wahrheit bleibt. Ähnlich wie bei Moses Aufforderung von der ägyptischen Weisheit zu lernen, geht es darum, sie zu widerlegen.
4. Schätztheorie
Ein Teilgebiet der Statistik, die Schätztheorie, wurde unter hohen Kosten von der Finanzmathematik vernachlässigt. Sie teilt uns mit, wie genau wir eine bestimmte Zahl kennen. Wir hoch fällt der Fehlerfaktor innerhalb unserer Schätzungen aus? Wie viel davon geht auf Verzerrung und Abweichung zurück.
Jenseits der klassischen Statistik wollen wir im Maschinenlernen die Fehlerquote neuer Daten möglichst minimieren, statt die Qualität alter Daten zu verbessern. Jemand hat einmal gesagt, wahrscheinlich Nils Bohr oder Pieter Hein, „Vorhersagen sind schwierig, besonders über die Zukunft“.
5. Optimierungs-Theorie
Damit können Sie Ihr Leben verbringen. Vieles im Maschinenlernen dreht sich um Optimierung. Wir wollen die Faktoren herausfinden, die die beste (also optimale) Performance eines neuralen Netzwerks neuer Daten erlaubt. Daher müssen wir sie – vielleicht mit einer Form von Regelung – optimieren. (Haben Sie bei Ihren Daten lineare Regression versucht, bevor Sie das Long-Short-Term-Memory (LSTM) Netzwerk kalibrierten?)
Natürlich gibt es noch mehr. Ein durchschnittlicher Data Scientist nutzt vielleicht nicht ihre Sprache, doch einige der jüngsten Fortschritte bei neuralen Netzwerken wurden durch Claude Shannons Informationstheorie und durch Thermodynamik erreicht. Schließlich stellt Entropie unseren Feind dar. Wir sollten unseren Freunden nahe und unseren Feinden noch näher sein.
Paul Bilokon zählt zu den Gründern von The Thalesians, einem Unternehmen, das sich auf Künstliche Intelligenz spezialisiert hat.