玩手机游戏,享快乐生活!
应用
Gfit5.9.0官方下载_最新Gfitapp免费下载 微博极速版9.7.3官方下载_最新微博极速版app免费下载 TOKIT1.4.0官方下载_最新TOKITapp免费下载 桔子短租住宿-民宿2.9.7官方下载_最新桔子短租住宿-民宿app免费下载 连尚读书女生版g1.1.4官方下载_最新连尚读书女生版app免费下载 相册管家3.7.0官方下载_最新相册管家app免费下载 密修个人版1.4.1官方下载_最新密修个人版app免费下载 借吧1.0.3官方下载_最新借吧app免费下载 哈密1.1.0.0722官方下载_最新哈密app免费下载 工程通3.1.0官方下载_最新工程通app免费下载 多多学数学1.0.00官方下载_最新多多学数学app免费下载 东财国际证券3.2官方下载_最新东财国际证券app免费下载 腾讯动漫7.24.5官方下载_最新腾讯动漫app免费下载 布谷智联1.2.0_286官方下载_最新布谷智联app免费下载 服装衣信汇2.1.11官方下载_最新服装衣信汇app免费下载 口红机达人1.2.7官方下载_最新口红机达人app免费下载 指尖淘1.3.1官方下载_最新指尖淘app免费下载 浙大儿院2.2.0官方下载_最新浙大儿院app免费下载 海券宝3.0.12官方下载_最新海券宝app免费下载 狐狸慧赚3.5.1官方下载_最新狐狸慧赚app免费下载 代你玩1.0.38官方下载_最新代你玩app免费下载 每日英语听力6.06官方下载_最新每日英语听力app免费下载 淘小说-阅读赚钱5.7.1官方下载_最新淘小说-阅读赚钱app免费下载 更多
游戏
全民奇迹13.0.0官方下载_最新全民奇迹app免费下载 JJ斗地主5.07.07官方下载_最新JJ斗地主app免费下载 奥特曼酷跑之王4.2.0官方下载_最新奥特曼酷跑之王app免费下载 超级飞侠大冒险4.1.0官方下载_最新超级飞侠大冒险app免费下载 猫和老鼠5.1.1官方下载_最新猫和老鼠app免费下载 疯狂动物园1.23.0官方下载_最新疯狂动物园app免费下载 开心消消乐?1.71官方下载_最新开心消消乐?app免费下载 英雄无敌1.0.243官方下载_最新英雄无敌app免费下载 密室逃脱5逃出博物馆666.19.03官方下载_最新密室逃脱5逃出博物馆app免费下载 模拟城市:我是市长0.30.20715.12509官方下载_最新模拟城市:我是市长app免费下载 一梦江湖23.0官方下载_最新一梦江湖app免费下载 疯狂钓鱼2.10.20官方下载_最新疯狂钓鱼app免费下载 暗黑超神3.0.2官方下载_最新暗黑超神app免费下载 天天爱钓鱼2.4.20官方下载_最新天天爱钓鱼app免费下载 最强NBA1.18.291官方下载_最新最强NBAapp免费下载 天龙八部1.56.2.2官方下载_最新天龙八部app免费下载 真龙传奇0.0.2官方下载_最新真龙传奇app免费下载 我叫MT43.4.0.0官方下载_最新我叫MT4app免费下载 烧饼抢红包修改器3.3官方下载_最新烧饼抢红包修改器app免费下载 乱世曹操传1.2.41官方下载_最新乱世曹操传app免费下载 倩女幽魂1.6.4官方下载_最新倩女幽魂app免费下载 我的汉克狗1.8.8.1007官方下载_最新我的汉克狗app免费下载 我的塔防1.190712官方下载_最新我的塔防app免费下载 更多
资讯
巴坦群岛海域发生5.9级震 震源深度10千米 特朗普愿达成?美最高法院允许25亿美元建边境墙 古特斯对比亚海域重大船难事故深表悲痛 吉塔两国总统日互访 重点解决界问题 摩洛哥南部山区泥石造成15人死亡 美国第二季经济增速降至2.1% 中国驻使馆举行招待会庆祝中国人民放军建军92周年 日贸易争端不断升级 美被指并非“解铃人” 台歌星费玉清悉尼告别唱 自言“不舍歌坛 美国第二度经济速降至2.1% 菲宾前总统阿罗约:望菲青年亲眼看看中经济奇迹 巴勒斯坦宣布终止所巴以协议 伊拉克南部发现疑为埋科威特囚犯遗骸的乱葬 新华际时评:怎个“热”字了得 内瑞拉谴责美察机再次侵犯领空 澳游泳选手因兴奋剂退 专家指责澳泳协欲掩盖消息 英欧铁定10月31日“分手?英拟备10亿英镑硬脱欧 智利南部约4万石油产品外泄入海 检方展开调查 德国“超级大钢琴”生琴弹琴须3楼高阶梯 北极地区现最严重火季 卫星都能拍到弥的浓烟 京查看二战中炸沉的苏联潜艇 并向遇难船员致敬 欧创纪录热浪北移 部分北欧国出现“热夜” 印度暴雨致铁轨 700名乘客经8小时救援均脱困 更多
联系我们
版权说明
Welcome-牛牛游戏平台
当前位置: Welcome-牛牛游戏平台 > 资讯 > 科技

11选5杀号技巧99%准确:OpenAI新研讨补齐Transformer短板,将可猜测序列长度进步30倍

来源:Welcome-牛牛游戏平台 发布时间:2019-04-27 10:12:31 点击数:

Welcome-牛牛游戏平台 www.nrxeeee.com.cn 现在,AI 研讨中的一项应战是在图画、视频或声响等杂乱数据中进行长序列的精密相关性建模。Sparse Transformer 兼并了 O(N^2)Transformer 自留意力机制的 O(N√N) 重组以及其他一些改善,然后直接用于这些丰厚的数据类型。曾经,这些数据上所运用的模型是专为某个范畴制造的,或许很难将序列扩展到包含几千个元素。

相比之下,OpenAI 开发的模型经过运用数以百计的层能够对包含上万个元素的序列进行建模,在许多范畴都取得了当时最佳的体现。OpenAI 研讨人员运用该模型协助创立能够更好地了解国际的 AI 体系。

深度留意力

在 Transformer 中,每一个输出元素与输入元素相衔接,一起根据具体状况对它们之间的权重进行动态核算,这一进程被称为「留意力机制」。尽管人们信任这使得 Transformer 较那些具有固定衔接形式的模型更为灵敏,但实际操作中需要为每一层和留意力头创立一个 N×N 留意力矩阵,当应用于图画或原始音频等具有许多元素的数据类型时会耗费很多内存。

当矩阵存储在内存或在逆推核算进程中进行再核算时,深度 Transformer(64 层和 4 个头)的留意力内存运用状况。作为参阅,用于深度学习的规范 GPU 内存一般是 12-32GB.

削减内存耗费的一种办法是在反向传达进程中从检查点处从头核算留意力矩阵,这是深度学习中的一种老练的办法,以更多的核算来削减内存运用。

当 Transformer 中的留意力矩阵完结时,这意味着最大的内存耗费将不受层数的分配,使研讨人员练习网络的深度大大超越早年。在实际操作中,研讨人员发现在处理 CIFAR-10 等基准测验使命时,深度达 128 层的 Transformer 体现出的功能优于较浅的网络。

为了练习深度更大的模型,研讨人员对 transformer 的操作次序进行了几回调整,修改了初始化办法。概况拜见论文。

稀少留意力

可是,关于十分大的输入来说,乃至核算单个留意力矩阵都是不现实的。因而,OpenAI 运用了稀少留意力形式,在这种形式中,每个输出方位仅从输入方位子会集核算权重。当子集相关于整个输入集较小时(如元素数量是√N 而不是 N),即便关于十分长的序列,留意力核算也会变得比较简略,算法杂乱度为 O(N√N)而不是 O(N^2)。

为了评价该办法的可行性,研讨人员首要可视化并学习了图画上深度 Transformer 的留意力形式,发现其间许多形式体现出了可解释和结构化的稀少形式。以下每幅图画都显现了哪个输入像素(白色高亮标出)由一个给定的留意力头处理,以猜测图画中的下一个值。当输入部分会集在小的子集上并显现出高度规律性时,该层就易于稀少化。以下是 CIFAR-10 图画上 128 层模型的样本:

左:Layer 19,右:Layer 20。为一个 128 层的 CIFAR-10 网络的若干层学习留意力形式(白色高亮显现)。这些层学会了在两个维度上切割留意力。Layer 19 汇总每一行的信息,Layer 20 按列汇总这些信息,然后有用分化了全留意力运算。

为获取方位回忆而练习的层(左:Layer 6;右:Layer 36),它们一般重视相似的方位,不论输入数据或时刻步长怎么(Layer 6)。其他层学习高度依靠数据的拜访形式(Layer 36)。

尽管许多层显现出稀少的结构,但有些层明晰地显现出了动态留意力,这种留意力延伸到整个图画。为了坚持网络学习这种形式的才能,研讨人员完成了留意力矩阵的二维分化,其间网络能够经过两步稀少留意力重视到一切方位。

第一版 strided attention 大约等同于每个方位处理自己的行和列,它与以上网络学得的留意力形式相似。(留意,列留意力可等同于处理转置矩阵的行)。第二版 fixed attention 在最新的列元素之后处理固定列和元素,研讨者以为这个形式关于数据无法拟合二维结构(如文本)的状况很有用。

试验成果

Sparse Transformer 在 CIFAR-10、Enwik8 和 Imagenet 64 数据集上改写了当时最优密度估计分数。

在 CIFAR-10、Enwik8 和 Imagenet 64 数据集上的密度估计功能(单位为 bits per byte/dim)。M 表明网络中运用的参数(单位为百万),W 表明网络宽度,L 表明层数,H 表明头数。

研讨者还发现稀少留意力比完好留意力的丢失更低,且速度更快。这或许指向稀少形式发生的有用概括偏置,或许密布留意力的底层优化问题。

生成图画

运用了稀少留意力的 Transformer 好像有一种大局结构的概念,这能够经过调查图画补全(image completion)进行定性评价。下图可视化了一个在 64×64 ImageNet 上练习的模型:

损坏原图

修正图画

实在图画

研讨人员还生成了彻底无条件的样本,其间未调整的 softmax 温度为 1.0。这些模型运用最大似然方针进行练习,其覆盖了一切的数据形式(其间包含或许不存在的数据),而不是增强较小部分数据的保真度。从具有未调整温度的模型中取样,研讨人员看到了该模型以为国际上存在的图画的完好散布。因而,一些样本看起来奇奇怪怪的。

模型示例

生成原始音频波形

经过简略改动方位嵌入,稀少 Transformer 还能用来生成原始音频,而非图画。跟着深度学习扩展到新的数据类型,用这类网络来指定概括偏置也很简略。

该模型是在原始的古典音乐片段上练习的,并运用了稀少留意力来生成长度为 65000 的序列。这相当于大约 5 秒长的原始音频,研讨人员鄙人面的每个片段中将几个样本衔接在一起。

代码发布

一般,完成稀少留意力需要将查询和要害矩阵切割成块,因而为了简化试验,OpenAI 完成了一组块稀少核,这些核在 GPU 上高效地履行这些操作。OpenAI 开源了这些核并供给了稀少留意力函数的示例:

https://github.com/openai/sparse_attention

未来开展和约束

本文介绍的稀少留意力形式仅仅对长序列进行高效建模的开始测验。研讨人员以为,探究稀少留意力的不同形式和各种组合十分有用,并且学习稀少形式对下一代神经网络架构来说也是一个很重要的研讨途径。

即便有了上述改善,自回归序列生成对十分高分辨率图画和音频来说仍是不切实际的??墒?,研讨人员介绍的优化留意力操作或许有用,将它与其它办法(如多标准办法)结合,能够建模高维数据。

论文:Generating Long Sequences with Sparse Transformers

论文链接:https://d4mucfpksywv.cloudfront.net/Sparse_Transformer/sparse_transformers.pdf

摘要:Transformer 是一种强壮的序列模型,可是它所需的时刻和内存会跟着序列长度呈现二阶增加。这篇论文介绍了留意力矩阵的稀少因式分化,能够将其降低到 O(N√N)。该研讨提出了 a)练习更深网络的架构和初始化变体;b)从头核算留意力矩阵以节约内存;c)用于练习的快速留意力内核。研讨者将具有这些改变的网络称为 Sparse Transformer,并证明该网络能够运用数百个层来建模不计其数个时刻步长的序列。

该网络在从原始字节中建模图画、音频和文本时运用的是相同的架构,在 Enwik8、CIFAR10 和 ImageNet-64 数据集上取得了当时最优的密度估计功能。研讨者生成的无条件样本展现了大局一致性和极大的多样性,并证明原则上能够运用自留意力建模长度超百万的序列。

参阅链接:https://openai.com/blog/sparse-transformer/

应用 | 游戏 | 资讯 | 联系我们 | Welcome-牛牛游戏平台 | 八卦 |

浙公网安备 33060202000544号
Copyright?十八楼 All Rights Reserved.

排列三预测_排列三预测官网 | 韩国快乐8官方网站 | 赛迪网 | 辽宁心悦麻将群 为什么每个月都赚钱看不到钱 今日头条短视频赚钱 我赚钱了虾米音乐 广东欢乐麻将微信群1元 养香菇为什么不赚钱 理发的好赚钱 现在什么是最赚钱的软件 整骨推拿能赚钱吗 兰州麻将黑三风三幺