【财新网】(记者 叶展旗 发自圣何塞)AlphaGo学棋三天胜人千年,诀窍是增强学习。简单地说,AlphaGo并不需要理解围棋,它每一步只追求极致的胜率,就像人类训练小狗捡东西一般:做对了奖励,做错了惩罚。但人类学习其实大多没有这么强的外界激励。
“飞行学院的学生从上第一堂课,到成为飞行员。并不是每一次飞行都会有强烈的外界激励。”近日,加州大学伯克利分校的博士生Deepak Pathak在接受财新记者采访时表示,很多现实世界的场景,都只有很少的外界激励,甚至没有激励。在这种情况中,好奇心会扮演内在激励的角色,驱动人不断探索外部世界和学习技艺。