|
|
|
|
LEADER |
02983na a2200229 4500 |
003 |
HR-ZaFER |
008 |
160221s2018 ci ||||| m||| 00| 0 en d |
035 |
|
|
|a (HR-ZaFER)ferid4762
|
040 |
|
|
|a HR-ZaFER
|b hrv
|c HR-ZaFER
|e ppiak
|
100 |
1 |
|
|a Petak, Martina
|
245 |
1 |
0 |
|a Minimizacija ukupne prijeđene udaljenosti od početne do odredišne lokacije pomoću potpornog učenja :
|b diplomski rad /
|c Martina Petak ; [mentor Marin Šilić].
|
246 |
1 |
|
|a Minimizing Total Driven Distance from Source to Destination Using Reinforcement Learning
|i Naslov na engleskom:
|
260 |
|
|
|a Zagreb,
|b M. Petak,
|c 2018.
|
300 |
|
|
|a 53 str. ;
|c 30 cm +
|e CD-ROM
|
502 |
|
|
|b diplomski studij
|c Fakultet elektrotehnike i računarstva u Zagrebu
|g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2018-06-29, datum završetka: 2018-07-18
|
520 |
3 |
|
|a Sažetak na hrvatskom: Minimizacija cijene puta pogodna je situacija za primjenu metoda potpornog učenja. Iz tog razloga, ovaj projekt predstavlja jedno moguće rješnje na takav problem u dinamičkim uvjetima.
Za simuliranje epizoda korišten je SUMO alat, a za upravljanje i implementaciju sustava korišten je Python jezik.
Odabrani algoritam učenja je Watkinsov Q(λ) kao algoritam vremenske razlike učenja s tragovima pouzdanosti, a kao strategija istraživanja implementirana su dva pristupa. Epsilon-pohlepni pristup s vjerojatnošću ε poduzima nasumične akcije, dok Boltzmanov pristup modelira vjerojatnost Boltzmanovom distribucijom kako bi balansirao između istraživanja i iskorištavanja znanja.
Evaluacija algoritma otkiva da se agenta može naučiti snalaženju u prometu, što se očituje u povećanju kumulativne nagrade i smanjenju pogrešaka RMSE i MAE.
|
520 |
3 |
|
|a Sažetak na engleskom: Travel cost minimisation is a convenient situation for applying reinforcement learning methods. For this reason, this project represents one possible solution to this problem in dynamical conditions.
The SUMO tool was used to simulate the episodes, and the Python language was used to manage and implement the system.
The chosen learning algorithm is Watkins’s Q(λ) as a temporal difference learning algorithm with eligibility traces, and two approaches have been implemented as a research strategy. Epsilon-greedy approach with probability ε takes random action, while Boltzman approach models the probability with Boltzman's distribution to balance between exploration and exploitation of knowledge.
Evaluation of the algorithm discloses that the agent can be learned to operate in traffic environment, as the increment in accumulated reward and reduction in errors RMSE and MAE can be noticed.
|
653 |
|
1 |
|a potporno učenje
|a strategija istraživanja
|a Q-učenje
|a više agenata
|a Python
|a SUMO
|a PyRL
|a minimizacija cijene puta
|
653 |
|
1 |
|a reinforcement learning
|a exploration strategy
|a Q-learning
|a multiagent
|a Python
|a SUMO
|a PyRL
|a travel cost minimization
|
700 |
1 |
|
|a Šilić, Marin
|4 ths
|
942 |
|
|
|c Y
|
999 |
|
|
|c 49764
|d 49764
|