评论

【最后一天】狗熊会在线实习 | 强化学习入门

时间安排

✔报名时间:即日起至2024年10月6日23:00

项目持续时间:2024年10月8日~10月21日

项目介绍

强化学习是监督学习、非监督学习之外的第三种基本机器学习方法,在自动驾驶、游戏、机器人控制等领域具有广泛应用

强化学习(Reinforcement Learning, RL)利用 智能体(agent)从“试错”中学习最佳行为策略,通过与 环境(environment)交互获得的 奖励(reward)指导行为,使智能体获得最大奖励

本项目以迷宫游戏为例,引导学员在理解强化学习基本概念的基础上,学习采用动态规划方法、蒙特卡罗方法和时序差分法解决强化学习问题

    • 项目内容涉及动态规划方法中的策略迭代、值迭代算法;蒙特卡罗方法中使用ε-贪心策略的on-policy算法、off-policy算法;时序差分法中的SARSA和Q-Learning算法;以及应用这些方法,实现寻找迷宫出路的最优策略
    • 项目为期两周,提供案例讲解、代码文档等资源

适用对象:(1)掌握Python的基础语法与数据结构;(2)项目期间每天保证1-2小时工作时间

你的收获

入门 强化学习

• 了解强化学习相关基本理论知识

• 掌握动态规划方法、蒙特卡罗方法和时序差分法的理论与实现

掌握应用方法解决一个实际问题(迷宫游戏)的过程

获得一份能力证明:狗熊会为按要求完成全部TASK的营员提供实习证明;优秀营员有机会获得知名企业的工作机会,简历直推高管

积累更多实战经验和影响力:狗熊会精品案例组、企业合作研究项目组优先招募优秀营员;营员优秀作品经过审核后可发表在狗熊会公众号,扩大营员的知名度和影响力

实习证明样例

任务清单

  • TASK1 强化学习简介及马尔可夫决策过程
    • 基础概念
    • 动态规划方法
  • TASK2 强化学习中的蒙特卡罗算法
    • on-policy算法
    • off-policy算法
  • TASK3 强化学习中的时序差分法
    • SARSA算法
    • TASK4 强化学习中的时序差分法
      • Q-Learning算法

    项目说明

    项目全程采取 线上远程形式进行,项目包含若干个TASK。每个TASK周期都包含如下环节:(1)导师发布任务要求和参考资料;(2)营员自学参考资料,如果有自己无法解决的问题,向老师和助教求助;(3)营员完成任务后,导师反馈评分+评语,对重点难点和多发问题做集中总结

    项目依托课堂派项目微信群:营员在课堂派完成查收任务和参考资料、提交报告、接收导师反馈、听直播总结课等环节;通过微信群与导师、助教互动

    课堂派:查收任务和参考资料,提交任务,接收反馈

    费用说明

    费用:980元/人。

    • 可按实际支付金额开具发票,名目“实习服务费”,在退款期结束后统一征集开票信息

    售后服务-3天无理由退款:

    • 售后退款条款:本项目接受“3天无理由退款”。“3天无理由退款”指商家(狗熊会)向其微店“狗熊会在线项目”营员提供的特别售后服务,允许营员按本规则的规定对其已购“狗熊会个人项目”服务进行退款服务。具体为,在“狗熊会在线项目”开始后的当天零时起计算时间,满72小时为3天内,已购买“狗熊会在线项目”的营员可向商家提出无理由退款申请,经商家确认后将已支付金额在3个工作日内通过营员支付渠道返还用户相应账户

    接受高校客户集体报名。关于项目与报名如有问题,请咨询study@clubear.org返回搜狐,查看更多

    责任编辑:

    平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
    阅读 ()