Este aprendizado por reforço é um modelo do machine learning que pode ser descrito saiba como "aprender por". 1 "agente" aprende a executar uma tarefa definida por tentativa e erro (um loop do feedback) até qual este desempenho esteja dentro de 1 intervalo desejável. Talvez um dos traçESTES menos óbvios https://www.linkedin.com/feed/update/urn:li:share:7356320248985194496/?actorCompanyId=77283885