Facebook最新研究：我们训练机器人讨价还价，没想到AI还自己学会了“使诈”

大数据文摘作品，转载请注明来源作者 |Mike Lewis，Denis Yarats，Yann N. Dauphin，DeviParikh，Dhruv Batra编译 | Aileen，Huo Jing

你跟女票说：“今晚的球赛特别重要，但是为了陪你我勉强放弃不看！”实际上今晚比赛的球队你根本不感兴趣，这样做只是让女票同意你明天和哥们喝酒的谈判“小伎俩”。这个“使诈”的技能是不是很熟悉？而这次，学会这个技能的是Facebook的讨价还价机器人，而且，这还是人家AI自己独立学会的技能。今日凌晨，Facebook发布最新研究，称他们训练的机器人已经get了谈判技能。而且，有些情况下，机器人最初假装对无价值项目感兴趣，只有通过放弃它才能“妥协” - 这是人们经常使用的有效谈判策略。这个行为并不是由研究人员编写的，而是由机器人发现的，作为试图实现目标的方法。

每天，从我们醒来的那一刻开始，我们的生活就是不断地与人谈判：从讨论看什么电视频道，到说服你的孩子吃蔬菜或试图买菜时获得更好的价格。所有这些都是共通的，它们需要复杂的交流和推理技能，这是计算机所没有的属性。迄今为止，现有的chatbots（聊天机器人）上的工作已经导致系统可以进行短暂的对话，并执行简单的任务，如预订餐厅等。但是，与人们进行有意义的对话的机器人还是很具有挑战性的，因为它需要机器人将其对话的理解与其对世界的知识相结合，然后产生一个新句子来帮助实现其目标。今天，Facebook人工智能研究（FAIR）的研究人员已经开放源代码，并发表论文，介绍机器人具有的新功能 - 谈判能力。*https://github.com/facebookresearch/end-to-end-negotiator类似于人们有不同的需求，遇到冲突，然后谈判达成一个商定的妥协，研究人员已经表明，对于具有不同目标的对话机器人（实现为端对端训练的神经网络）在达成共同决定或结果的同时，与其他机器人或人员可以进行从开始到结束的谈判。

任务：多议题讨价还价

FAIR研究人员研究了多议题谈判任务。对两个机器人都显示了相同的项目集合（比如说两本书，一个帽子，三个球），并且被指示他们通过谈判把这些物品分配给彼此。

每个机器人都提供自己的价值函数，它表示对每个类型的项目关心多少（比如对于机器人1，每个球值得3分）。在生活中，两个机器人都不知道其他机器人的价值函数，必须从对话中推断出（如果你说你想要球，那你应该很重视球）。FAIR研究人员创造了许多这样的谈判方案，始终确保两位机器人商不可能同时获得最佳交易。此外，如果谈判进行不下去（或者不经过10次对话之后的协议），那这两个人都只得0分。简单地说，谈判是至关重要的，良好的谈判导致更好的表现。

对话框部署

谈判同时是语言和推理问题，其中必须制定意图，然后口头实现。这样的对话包含合作和对抗的要素，要求机器人了解和制定长期计划并产生话语以实现其目标。FAIR研究人员在构建这样的长期规划对话机器方面的关键技术创新是一种称为对话部署的概念。当聊天人可以建立对方（对话者）的心理模型，提前思考或预测未来谈话的方向时，他们可以选择避开没意义的，混乱的或令人沮丧的交流，从而走向成功的谈判。具体来说，FAIR已经开发了对话部署，作为一种新技术，其中机器通过将对话模型推出到对话结束来模拟未来的对话，从而可以选择具有最大预期未来奖励的话语。

类似的想法已被用于游戏环境规划中，但从未被应用于语言上，因为语言可能的动作数量要高得多。为了提高效率，研究人员首先产生了一组较小的候选语言来表达，然后对于每个候选语言，他们反复模拟对话的完整未来，以估计它们的成功程度。该模型的预测精度足够高，使得该技术在以下几个方面大大提高了谈判策略：谈判更加努力：新的机器人与人类进行了长时间的对话，反过来也会很快接受交易，这个模型会一直谈判直到交易成功。智能机动：有些情况下，机器人最初假装对无价值项目感兴趣，最后只有通过放弃它才能“妥协” - 这是人们经常使用的有效谈判策略。这个行为并不是由研究人员编写的，而是由机器人发现的，作为试图实现目标的方法。创造语句：虽然神经模型很容易从训练数据中重复句子，但这项工作表明，模型能够在必要时进行泛化。

建立和评估谈判数据集

为了训练协商机器人和进行大规模的定量评估，FAIR团队协作收集了一系列人与人之间的谈判记录。这些人被展示了一组物品和每个物品的价值，每两个人要讨论决定，要怎么划分这些物品。然后研究人员训练一个递归的神经网络，通过教它模仿人们的行为来进行谈判。在对话框中的任何点，模型都试图猜测人类在这种情况下会说什么。不同于先前针对目标对话框的工作，这些模型被训练成“端到端”，完全是由人类所做的语言和决定所决定的，这意味着这种方法可以很容易地适应其他任务。为了超越简单地模仿人们，FAIR研究人员允许模型来实现谈判的目标。为了训练模型实现其目标，研究人员让模型进行了数千次的自我谈判，并使用强化学习算法，当它取得好的结果时给予奖励。为了防止算法开发自己的语言，它也同时训练模型产生人类语言。为了评估谈判机器人，FAIR团队测试他们在网上与人交谈。大多数以前的工作避免与真实的人对话或在较不具挑战性的领域工作，因为学习模型要响应人们所说的各种语言非常困难。有趣的是，在FAIR团队的实验中，大多数人没有意识到他们是在与机器人交谈，而不是与另一个人交谈，这表明机器人已经学会在这个领域用英语进行流利的对话。FAIR团队最好的谈判机器人，使用强化学习和对话的推出，其性能已经可以和人类谈判相媲美。它取得了更好的交易的频率，等同于更糟的交易的频率，表明FAIR的机器人不仅可以说英语，也可以聪明地决定想说什么。

强化学习用于对话机器人

监督学习的目的是模仿人类用户的行为，但它并没有明确地试图实现机器人的目标。FAIR团队采用另一种方法，尝试预训练再加监督学习，然后基于评估指标，利用强化学习对模型进行微调。实际上，他们使用监督学习来在语言和意义之间进行映射，但是使用强化学习来帮助决定说什么。在强化学习过程中，一个机器人试图从与另一个机器的对话中改进其参数。而另一个机器可能是一个人，FAIR团队使用一个固定的监督模型，训练模仿人类。第二个模型是固定的，因为研究人员发现，随着机器开发自己的语言进行谈判，更新两个机器模型的参数导致了模型不收敛。在每一个对话结束时，根据最后达成的协议给予奖励。然后，使用策略梯度，这个奖励通过输出的每一个字被回传网络，从而增加导致高回报的行动的概率下一步这一突破对于研究社区和BOT开发商是重大的一步，可以创造聊天机器人推理，交流，洽谈的能力，对于建立个性化的数字助理至关重要。与社区合作使我们有机会分享我们的工作和我们要解决的挑战，并鼓励有才华的人贡献他们的想法和努力，推动这个领域向前发展。

举报/反馈

大数据文摘

21.6万获赞 10.4万粉丝

专注数据，分享价值。

关注