2x2 Ergebnisse

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

2x2 Ergebnisse
Ich bekomme für ein 2x2 warehouse identische Ergebnisse, unabhängig davon ob ich eine greedy-policy oder eine mdp-policy nutze. Schaut das bei euch auch so aus?


Schaut bei mir genauso aus.

Wie schaut denn deine Reward-Matrix aus? Bei mir hat sie immer den Stil [4, 2, 2, 1] oder [-1, 2, 2, 1] wenn Aktion 1 nicht möglich ist. Ist praktisch eine Greedy-Matrix. Das erscheint mir dann logisch, dass das Ergebnis dasselbe ist.


Meine Reward matrizen schauen ähnlich aus.
Denke auch, dass es bei einem 2x2 warehouse vermutlich nicht viel Optimierungs-potential gibt, wenn keine interessante Verteilung von Objekten gegeben ist.


Ist bei mir auch so. Die MDP policies waren bestenfalls so gut wie die greedy policy. Auch bei 3x2. Zumindest in Bezug auf die Trainingsdaten. Die Evaluierung anhand der Testdaten steht noch aus. Meine reward matrices haben als Einträge die negative Manhattan Distance zum letzten Feld im Lager.

Übrigens: mit PolicyIteration funktionierte bei mir nur eine SxA Matrix, aber keine Liste aus Sx1 Matrizen, im Widerspruch zur Dokumentation. Auch shape=(S,) hat nicht funktioniert.


Das ist jetzt interessant. Ich hab einen Fehler in meinem code gefunden, und nach dem bug fix sind meine mdp policies (bezogen auf den gegebenen Test-Datensatz) um ~9% effizienter als der greedy algorithmus. Welchen weg legen eure policies denn bei dem 2x2 datensatz zurück?

Edit: Hat sich erledigt, mein code enthält wohl noch einen Fehler :slight_smile: