Wedo not use a pre-defined decision tree to classify the environment in the ND method.Also,we do not solve the reward function in the imitation learning method.

  • 我们并不使用事先定义好的决策树来分类环境,也不试图将奖励函数解出,我们将试著找到环境资讯与人类控制行为的对应关系。
目录 查词历史