Frage zu Deep Q-Learning

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

Frage zu Deep Q-Learning
Wenn ich den Pseudo-Code richtig verstanden habe, wird iterativ immer eine aktion ausgewählt, diese ausgeführt, um mit dem reward danach das ANN zu trainieren. Das macht natürlich Sinn, wenn man das ANN “online” trainiert. Aber da wir die Kurswerte von 1962 bis 2011 haben, können wir doch auch einfach direkt input und output berechnen, um quasi auf einen Schlag die gesamten Daten ins ANN zu stecken, oder?


Was du vorschlägst ist Supervised learning mit einem neuronalen Netz.
Würde gehen, geht aber an der Aufgabe vorbei:
Deine Aufgabe ist es schließlich einen Trader zu implementieren, welcher mit Reinforcement learning (genauer: Deep Q-Learning) lernt.

Oder anders formuliert:
Die Kurswerte von 1962-2011 hast du ja nur, weil unser framework (die Börse) diese benötigt.
Sonst, im normalen Setting von Reinforcement Learning, hast du die ja gar nicht :wink: