Las estrategias de trading tradicionales se basan en reglas fijas. Los mercados cambian constantemente y estas reglas se vuelven obsoletas rápidamente.
Este programa enseña cómo diseñar agentes de aprendizaje por refuerzo que aprenden estrategias óptimas de trading interactuando con datos históricos de mercado. Los participantes trabajan con algoritmos como Deep Q-Networks, Proximal Policy Optimization y Actor-Critic para desarrollar sistemas que toman decisiones de compra, venta y dimensionamiento de posiciones maximizando métricas ajustadas por riesgo.
El contenido abarca desde la formulación del problema de trading como un Markov Decision Process hasta la implementación de entornos de simulación realistas que incluyen costes de transacción, slippage y restricciones de liquidez. Se utilizan datasets con datos tick-by-tick de múltiples mercados para entrenar agentes que operan en diferentes marcos temporales y clases de activos.
Los equipos desarrollan competencias para diseñar funciones de recompensa que equilibran rentabilidad y control de riesgo, evitando el overfitting a patrones históricos que no se repiten. La formación incluye técnicas de backtesting robusto, análisis de drawdown y validación mediante walk-forward optimization para evaluar la generalización de estrategias aprendidas.