{rfName}
MA

Licencia y uso

Icono OpenAccess

Citaciones

Altmetrics

Análisis de autorías institucional

Rozada, SAutor (correspondencia)Marques, AgAutor o Coautor

Compartir

25 de abril de 2024
Publicaciones
>
Reunión

MATRIX LOW-RANK TRUST REGION POLICY OPTIMIZATION

Publicado en:2023 Ieee 9th International Workshop On Computational Advances In Multi-Sensor Adaptive Processing, Camsap. 406-410 - 2023-01-01 (), DOI: 10.1109/CAMSAP58249.2023.10403480

Autores: Rozada, Sergio; Marques, Antonio G

Afiliaciones

King Juan Carlos Univ, Dept Signal Theory & Communicat - Autor o Coautor

Resumen

Most methods in reinforcement learning use a Policy Gradient (PG) approach to learn a parametric stochastic policy that maps states to actions. The standard approach is to implement such a mapping via a neural network (NN) whose parameters are optimized using stochastic gradient descent. However, PG methods are prone to large policy updates that can render learning inefficient. Trust region algorithms, like Trust Region Policy Optimization (TRPO), constrain the policy update step, ensuring monotonic improvements. This paper introduces low-rank matrix-based models as an efficient alternative for estimating the parameters of TRPO algorithms. By gathering the stochastic policy's parameters into a matrix and applying matrixcompletion techniques, we promote and enforce low rank. Our numerical studies demonstrate that low-rank matrix-based policy models effectively reduce both computational and sample complexities compared to NN models, while maintaining comparable aggregated rewards.

Palabras clave

ApproximationFactorizationGradientGradient approachGradient methodsLearning systemsLow-rank matricesMatrixMatrix factorizationMatrix factorization.Matrix factorizationsOptimizationPolicy gradientPolicy gradientsPolicy optimizationReinforcement learningReinforcement learningsStochastic policyStochastic systemsTrpoTrust regionTrust region policy optimization

Indicios de calidad

Impacto y visibilidad social

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Rozada Doval, Sergio) y Último Autor (García Marqués, Antonio).

el autor responsable de establecer las labores de correspondencia ha sido Rozada Doval, Sergio.