竞技宝官网app·AI 周报：快手开源斗地主 AI；人工智能之后“智

时间发布时间：2024-05-14 06:57:52 来源：竞技宝app下载官网作者：竞技宝官网地址

　　AI 周报：快手开源斗地主 AI；人工智能之后，“智能物质” 计算崛起；GPT-3 问世这一年

　　近日，快手 AI 平台部的研究者用非常简单的方法在斗地主游戏中取得了突破，几天内就战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。而且，复现这个研究只需要一个普通的四卡 GPU 服务器。

　　在 GAN 迁移领域，研究人员可以构建一个以人脸图像为输入并输出人脸动漫形象的映射。相关的研究方法已经出现了很多，如腾讯微视此前推出的迪士尼童话脸特效等等。

　　近日，来自伊利诺伊大学香槟分校的研究者提出了一种新的 GAN 迁移方法 GANs N’ Roses（简写为 GNR），这一多模态框架使用风格和内容对映射进行直接的形式化（formalization）。简单来讲，研究者展示了一种以人脸图像的内容代码为输入并输出具有多种随机选择风格代码的动漫形象。

　　从技术上来讲，研究者基于对内容与风格的简单和有效定义中得出了对抗性损失，它保证了映射的多样性，即可以从单一内容代码中生成多样化风格的动漫形象。在合理的假设下，这种映射不仅多样化，还能以输入人脸为条件正确地表示动漫形象的概率。相比之下，当前的多模态生成方法无法捕捉动漫中的风格。大量的定量实验表明，与 SOTA 方法相比，GNR 方法可以生成更多样风格的动漫形象。

　　近日，快手 AI 平台部的研究者用非常简单的方法在斗地主游戏中取得了突破，几天内就战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。而且，复现这个研究只需要一个普通的四卡 GPU 服务器。随着斗地主 AI 的不断进化，人（Ke）类（Jie）的斗地主冠军宝座不知还能否保住。

　　比较有趣的是，该系统所使用的算法极其简单却非常有效。团队创新性地将传统的蒙特卡罗方法（即我们初高中课本中常说的「用频率估计概率」）与深度学习相结合，并提出了动作编码机制来应付斗地主复杂的牌型组合。该算法在不借助任何人类知识的情况下，通过自我博弈学习，在几天内战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。相关论文已被国际机器学习会议 ICML 2021 接收，论文代码也已开源。同时，论文作者开放了在线演示平台供研究者和斗地主爱好者体验。

　　在线演示支持中文和英文。使用者可以选择明牌 / 暗牌，并可以调节 AI 出牌速度。在明牌模式下，用户可以看到 AI 预测出的最好的三个牌型和预计胜率。

　　3. Transformer 杀疯了！竟在图神经网络的 ImageNet 大赛中夺冠，力压 DeepMind、百度......

　　在 6 月 17 日刚结束的 KDD Cup 2021 和 OGB 官方联合举办的第一届图神经网络竞赛 OGB Large-Scale Challenge 中，来自微软亚洲研究院 (MSRA) 和大连理工的团队力压 DeepMind、百度等队伍，夺得图预测任务赛道第一名。在这场号称 “地表最强图神经网络” 之争的国际权威竞赛中，获得第一名的模型不是图神经网络模型，反而是 Transformer 模型。

　　在比赛的三个赛道中，图预测任务最受人瞩目（另外两个赛道为节点预测和关系预测）：本次图预测任务发布了有史以来最大的有标注图数据集 PCQM4M-LSC, 其中包含超过 3,800,000 个有标注分子图 (作为对比，ImageNet 挑战赛包含 1,000,000 张标注图片，而在此之前最大的有标注图数据集大小不过约 450,000 个有标注分子图)。

　　本次图预测竞赛的任务是对给定的 2D 结构分子图，预测由 DFT 计算的分子性质，如 HOMO-LUMO 能带隙。DFT （density functional theory, 密度泛函理论）基于量子物理力场，可以精确地预测多种分子性质。在此次比赛中，与其他队伍基于图神经网络的解决方案不同，来自 MSRA 机器学习组的研究员和实习生们直接使用 Transformer 模型对分子图数据进行处理，并力压 DeepMind、百度、阿里巴巴蚂蚁金服等强劲对手，取得第一名的佳绩。

　　近年来，图像翻译技术百花齐放，但仍有两个关键问题有待解决：1）生成的图风格不可预知，用户无法指定具体实例的样式（如红色的法拉利、橘红的天空）；2）图片往往有较明显的瑕疵，影响用户体验。针对上述问题，微软亚洲研究院的研究员们在 CVPR 2020 上提出了基于样例的 CoCosNet 算法，算法按照用户给定样例生成多模态结果，解决了图像生成过程中风格精细控制的难题，在一系列图片翻译任务中取得大幅领先的生成质量。但是由于较大的计算内存开销，这个方法并不能很好地拓展到高清图生成领域。

　　而为了解决图片清晰度的问题，研究员们进一步提出了 CoCosNet v2。借鉴了 PatchMatch 的思想，CoCosNet v2 充分利用了自然图片特征空间局部连续的特点，用迭代的方法换取内存开销，实现了在原高清分辨率下高效近似注意力（attention）机制，在高清大图的生成上取得了惊艳的效果。该方法的相关工作已被收录为 CVPR 2021 oral 论文 “Full-resolution Correspondence Learning for Image Translation”。

　　针对上述注意力矩阵显存占用率问题，CoCosNet v2 用两个技术对此进行了处理。首先，利用 coarse-to-fine 的思想，构建多层级特征空间金字塔，在高层次低分辨率空间构建的对应关系中，指导下一层在更高分辨率下进行更精细的搜索。

　　关于 AI，一个长期的发展目标是去中心化的神经形态计算，即依靠分布式的核心网络来模拟大脑的大规模并行运算，从而实现一种受自然启发的超强信息处理方法。6 月 17 日，来自德国明斯特大学和荷兰特文特大学的科学家团队在《Nature》杂志上发文对 “智能物质” 进行了概述，他们回顾分析了当前业界利用分子系统、软材料或固态材料等实现的智能物质的进展，以及在软机器人、自适应人工皮肤和分布式神经形态计算方面的实际应用。

　　尽管论文中的智能物质并没有表现出大众所熟知的那种智力水平（例如识别能力或语言能力），但它们的功能已远远超出静态物质的特性，潜在应用鼓舞人心。

　　研究人员认为，可以通过用分层的方式定义人工物质的智能。比如，通过结合四个关键功能元件来实现智能物质：（1）传感器与环境交互并接收输入和反馈；(2）执行器对输入信号做出响应并调整材料的性能；(3）用于长期存储信息的存储器；（4）用于处理反馈的通信网络。理想情况下，这些元素可形成功能性的处理连续体，它不需要集中的处理单元，而是提供本地和分布式的信息处理能力。

　　尽管一些乐观主义者认为通用人工智能离我们不到十年，但一项针对机器学习专家的大型调查表明，如果存在通用人工智能，那我们可能要到 2040 年左右才能拥有它。

　　近日，来自 DeepMind 的科学家在提交给同行评议的期刊《人工智能》（Artificial Intelligence）上的一篇题为 “Reward is enough” 的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。

　　该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔，研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。

　　人类的视觉系统经过百万年的进化已具有非常强大的功能，甚至是一种未受到充分赏识的超能力。人类之所以在视觉上表现如此优异，一方面归功于人类的进化史，另一方面是因为我们的大脑投入了很大一部分来实现视觉。目前 AI 领域已取得了一些令人振奋的重大进展，一些国家和地区已开启了长达 20 年的 AI 研究计划来实现和提升 AI 技术。

　　乍一看，AI 视觉似乎的确具有超越人类的识别能力。但事实上并非如此，比如，深度网络在预期外的非常规场景就很容易犯错误。这些错误是由于深度神经网络无法有效的处理对抗攻击造成的。AI 视觉的另一个大问题是如何解决跨域识别（Transfer Across Domains）问题。相较而言，如果更换了图片的场景，或者增加对抗样本，深度神经网络会在这类情况下犯一些非常低级的错误。

　　首先，人类视觉是优于 AI 视觉的。AI 视觉在比赛中开起来更优秀的表现，是由计算机视觉和机器学习领域当前普遍使用的研究范式造成的。事实上，没有哪个 AI 视觉算法能超越人类视觉的表现。就 “理想观察者” 的模型而言，它似乎能在任何视觉任务上都胜过人类，但这是因为这些模型知道数据的统计特性，而人类并没有这些先验知识。深度网络还不具备思维，而是擅长利用数据集中存在的偏向。

　　鉴于以上的分析，未来我们应该挑战 AI 视觉算法去实现人类视觉在开放复杂环境下的认知表现，我们要去探索人类视觉可以做的是什么，并挑战算法发挥相应的潜力，而不是仅仅是简单地基于平衡注释数据集、采用标准化的性能指标去评估 AI 算法。

　　算法能直接从我们大脑获取反应而非仅仅根据人的行为进行猜测，这听起来有点像科幻小说，但一项结合计算机科学和认知神经科学的研究显示，基于大脑的协同过滤确实可以使其变为可能。哥本哈根大学和赫尔辛基大学的一个联合研究小组证明，可以根据某人的大脑反应匹配情况来预测其个人偏好。这一发现可能会被用来提供个性化的媒体内容 —— 甚至可能让我们更了解自己。

　　论文题为 Collaborative Filtering with Preferences Inferred from Brain Signals，已经被收录。

　　协同过滤，即利用大量用户的互动数据向个人推荐 ta 可能喜欢但却没有互动的项目。理论上，使用脑机接口可以直接从人脑推断出偏好。这次的研究则首次证明，在现实的推荐场景中，脑机接口可以为偏好推测将是一个可行的选择。这种利用大脑推断偏好的方法结合算法，可设计出一个神经协作过滤框架。另外值得称道的是，这项研究还专门讨论了该发现对个性化系统和用户隐私的更广泛影响。实验中，研究人员将脑电图电极放置于研究参与者的头部，并向他们展示各种面孔的图像，以期证明机器学习可以利用大脑的电活动来检测受试者认为哪些面孔最有吸引力。

　　GPT-3 使用了几乎所有来自互联网的可用数据进行训练，并在各种 NLP 任务中表现出惊人的性能，甚至超过了最先进的模型。近日，工程师、神经科学家 Alberto Romero 撰写了一篇长篇文章，从 GPT-3 的论文发表谈起，对于这一里程碑式的产物进行了全面梳理。

　　围绕 GPT-3 的疯狂炒作。在取得如此多惊人的成绩之后，人们开始大力宣传 GPT-3 的潜力。一些人在 Twitter 上声称 GPT-3 具有 “明显的自我意识”，还有一些人将其与搜索引擎的 “一般智能” 相比较。但事实上它并不想人们想象的那样神奇。OpenAI 的首席执行官 Sam Altman 试图调低语气：“GPT-3 令人印象深刻... 但它仍然存在严重的弱点，有时会犯非常愚蠢的错误。AI 将改变世界，但 GPT-3 只是早期的一瞥。”

　　并非 GPT-3 的所有结果都值得庆祝。GPT-3 发布后不。

竞技宝官网app

上一篇：向大脑学习智能本质探索通用 AI 的另一条可行路径下一篇：「自动驾驶第一股」退市和卡车司机「抢饭碗」行不通？

0731-88575016

竞技宝官网app·AI 周报：快手开源斗地主 AI；人工智能之后“智