什么是场景应用

动态 未结 置顶 精帖
用户
悬赏:60飞吻

2020年2月7日,在第34届美国人工智能协会年会AAAI 2020现场,深度学习三巨头齐聚,“计算机视觉”与“机器学习”分座两旁,对最佳论文虎视眈眈。

最终清华大学与南洋理工大学的一篇“混合可分割和不可分割商品的公平划分”文章获得最佳学生论文奖。

论文地址:https://arxiv.or/pdf/1911.07048.pdf

这时候人们猛然惊醒,原来,深度学习已经在博弈论和经济学领域布局已久,从论文录取率来看,每三篇录取一篇的录取率已经占据了榜首。

这在老牌经济学家眼里似乎不可思议,毕竟经济学研究的重心不在预测方面,而是对于经济现象的解释,经济运作规律的揭示。

具象一些,深度学习的黑盒性质无法有效地解释优化好的参数,无法说明参数对经济规律具体作用机制。

但是,AI经济学家运用深度学习也有别样的魅力。

1 强化学习之于税收设计

两级学习框架

斯坦福大学副教授 Richard Socher 开发了一个包含智能体(工人)和税收政策(政府)的两级强化学习框架,用原生态的经济环境来设计税收政策。

在动态模拟的世界中只设置了两种资源:木材和石材,并假设资源再生的速度有限。工人通过在世界里随机游走收集资源并通过买卖或者盖房子赚钱。钱可以带来效用(满足程度),盖房子付出劳动会降低效用。

另外,给予工人技能不同劳动效率不同的假设,工人赚的钱需要缴税,系统所得税收在所有工人之间平均分配。

平均分配的机制对工人战略眼光进行了要求。当模拟世界中的工人以效用最大化为目标时,整个系统出现了这种状况:低技能的工人自收集和销售,高技能的工人买材料和建筑。

这种状况在经济学中的术语是“分工专业化”,此举能够最大化系统的效用。

在整个模型运行的过程中,用强化学习的最佳税收设计作为奖励模式。政策制定者可以设置税率影响工人税后收入水平,工人通过买卖资源和盖房子获得金钱(效用),强化学习奖励目标是:整体系统效用最大化。

有了这个奖励目标,工人和政策制定者的行动对整个系统带来了内部循环和外部循环两个挑战。

在内部循环中,工人在劳动、挣钱、纳税之中不断调整自己的行为,如果这时候给定其一个固定的税率,那么问题就变成具有固定奖励函数的标准多智能体强化学习问题。

在外部循环中,税收政策的调整是为了优化社会目标。这就形成了一个非静态的学习环境,在这个环境中,强化学习中的智能体需要不断地适应不断变化的效用环境。

最后,作者发现通过使用学习税率表(类似美国所得税的征税方式)和熵正则化等技术,可以找到稳定的收敛点。实验结果表明,通过强化学习的AI经济学家能在提高47%的平等性的同时,只降低11%的生产率。

 

回帖
  • 消灭零回复
[打开调试信息]