玩手机游戏,享快乐生活!
应用
暖心口袋1.4.6官方下载_最新暖心口袋app免费下载 儿歌点点2.7.06.release官方下载_最新儿歌点点app免费下载 齐齐直播2.8.0.0官方下载_最新齐齐直播app免费下载 必看小说1.20.17官方下载_最新必看小说app免费下载 多多超市1.0.32官方下载_最新多多超市app免费下载 遇梦5.9官方下载_最新遇梦app免费下载 掌玩2.6.2官方下载_最新掌玩app免费下载 粤通卡4.7.2官方下载_最新粤通卡app免费下载 贝壳网5.3.0.1官方下载_最新贝壳网app免费下载 创元期货6.1.4.12官方下载_最新创元期货app免费下载 可可宝贝1.3.6官方下载_最新可可宝贝app免费下载 太平通1.1.1官方下载_最新太平通app免费下载 微密圈3.1.5官方下载_最新微密圈app免费下载 随享季2.5.0官方下载_最新随享季app免费下载 狮桥二手车1.2.0官方下载_最新狮桥二手车app免费下载 留痕笔记1.5.0官方下载_最新留痕笔记app免费下载 信用付3.6.1官方下载_最新信用付app免费下载 未来集市1.1.8官方下载_最新未来集市app免费下载 中华易学堂8.8.9官方下载_最新中华易学堂app免费下载 洪恩故事3.1.1官方下载_最新洪恩故事app免费下载 国美易卡3.2.1官方下载_最新国美易卡app免费下载 鹤城在线4.1.0官方下载_最新鹤城在线app免费下载 刷宝2.7.3006官方下载_最新刷宝app免费下载 更多
游戏
剑侠世界1.2.9874官方下载_最新剑侠世界app免费下载 阴阳师1.0.66官方下载_最新阴阳师app免费下载 魔与道OL4.06.02官方下载_最新魔与道OLapp免费下载 熊出没4丛林冒险1.2.5官方下载_最新熊出没4丛林冒险app免费下载 王者荣耀1.45.1.11官方下载_最新王者荣耀app免费下载 侠义21.1.8官方下载_最新侠义2app免费下载 植物大战僵尸22.3.93官方下载_最新植物大战僵尸2app免费下载 QQ炫舞2.6.2官方下载_最新QQ炫舞app免费下载 NBA Live-5v5真操控3.5.00官方下载_最新NBA Live-5v5真操控app免费下载 金箍棒3.78官方下载_最新金箍棒app免费下载 一起来跳舞3.9官方下载_最新一起来跳舞app免费下载 红星斗地主1.01.60官方下载_最新红星斗地主app免费下载 梦想城镇7.5.0官方下载_最新梦想城镇app免费下载 天道问情1.133.0官方下载_最新天道问情app免费下载 小米超神1.39.9官方下载_最新小米超神app免费下载 机甲奥特曼1.1.3官方下载_最新机甲奥特曼app免费下载 小小三国无双1.02官方下载_最新小小三国无双app免费下载 葫芦娃(百变小金刚)1.8.0官方下载_最新葫芦娃(百变小金刚)app免费下载 超级飞侠跑跑超人1.6.0官方下载_最新超级飞侠跑跑超人app免费下载 叶罗丽精灵梦2.5.3官方下载_最新叶罗丽精灵梦app免费下载 权力的游戏 凛冬将至1.3.11官方下载_最新权力的游戏 凛冬将至app免费下载 熊大熊二向前冲1.1.5官方下载_最新熊大熊二向前冲app免费下载 侍魂-胧月传说1.20.5官方下载_最新侍魂-胧月传说app免费下载 更多
资讯
解禁在即:美国公司对华为供货两周后重启 『图画视频了解』硬核技能会议 PyTorch Geometric 攻略 倒计时3天,怎么正确打开市北·GMIS 2019(参会攻略) 怎样扩大大数据?你需求了解的第一个联邦学习开源结构FATE 深度学习在CV范畴已触及天花板? 功率可达CPU一万倍、内含800万神经元:英特尔发布神经形状芯片超算 指纹识别将走向何方? 30万麻醉医生荒,主动麻醉机器人怎么处理? AI商业产品司理:我眼中的AI简史 腾讯张正友:计算机视觉的三生三世 复旦大学邱锡鹏教授做客豁达NLP研讨会:自然语言处理中的多任务学习 废物分类很难吗?这是一篇来自AI废物收回箱的魂灵拷问… CVPR 2019论文解读 | 通用范畴适配问题研讨 解禁在即:美国公司对华为供货两周后重启 实战入门深度学习,李沐中文新书赠送 腾讯广告,一个巨大的 AI「练兵场」 人工正成为遥感大数据的“解译侠” 第十个中国航海日聚焦航运业高质量发展 为民解题 奋力稳就业 “大棚”问题清理整治情况:遏制农地非”乱象 持制造业就业稳是关键 工业经济跨发展 制造大国屹立东方 更多
联系我们
版权说明
Welcome-牛牛游戏平台
当前位置: Welcome-牛牛游戏平台 > 资讯 > 科技

11选5任3必中方法:让AI简略且强壮:深度学习引擎OneFlow技能实践

来源:Welcome-牛牛游戏平台 发布时间:2019-04-27 10:12:15 点击数:

Welcome-牛牛游戏平台 www.nrxeeee.com.cn 北京一流科技有限公司将主动编列并行办法、静态调度、流式履行等立异性技能相交融,构建成一套主动支撑数据并行、模型并行及流水并行等多种办法的分布式深度学习结构,下降了分布式练习门槛、极大的前进了硬件运用率。该结构现已成功协助许多头部互联网公司及人工智能企业进步了大模型练习功率,节约了硬件运营和运用本钱,到达了降本增效的作用。一流科技是一家为企业客户供给面向大规划大核算大模型等深度学习结构的人工智能范畴科技立异公司。

共享者袁进辉是北京一流科技有限公司创始人,任首席科学家。2008 年 7 月在清华大学核算机系取得工学博士学位,取得清华大学优异博士学位论文奖。2013 年参加微软亚洲研讨院从事大规划机器学习渠道的研制作业。2014 年发明了其时世界上最快的主题模型练习算法和体系 LightLDA,只用数十台效劳器即可完结曾经数千台效劳器才干完结的大规划主题模型,该技能成功运用于微软在线广告体系,被其时主管研讨的全球副总裁周以真称为「年度最好作用」。2015 年至 2016 年末,专心于建立根据异构集群的深度学习渠道,项目荣获微软亚洲研讨院院长特别奖 (top 1%)。2017 年创建北京一流科技有限公司,致力于打造分布式深度学习渠道的实际工业规范。

提纲:

  • 研制 OneFlow 的动机

  • OneFlow 技能打破

  • 总结

01 研制 OneFlow 的动机

软件 OneFlow 简介

业界有人工智能浪潮的三驾马车之说,即数据、算法、算力。详细到算力,业界更多重视的是硬件,比如 GPU,甚至是 TPU 之类的 AI 专用芯片??墒?,人们发现,有了更快的加快器之后,束缚大规划分布式练习算力的瓶颈是软件。怎样协助数据科学家和研讨员们更轻松的把各种算法在底层硬件上跑起来,并且充沛开释底层硬件的潜力,正是软件结构需求处理的问题。现在,已有的开源深度学习结构对数据并行场景处理的比较好,但遇到模型越来越大的场景就没有好办法。用户或许束手无策,或许只能支付极大本钱根据开源结构做深度定制开发来满意需求。OneFlow 团队的方针是研制一个通用结构主动处理这些问题,让那些没有结构研制才能的团队也能够享用分布式 GPU 集群带来的功率,这是咱们历时两年多研制一套全新深度学习结构的初衷。

背面的动机:核算力是深度学习开展的最重要的推动力。

事例:

  • 2015 Microsoft Resnet

  • 2016 Baidu Deep Speech 2

  • 2017 Google NMT

2015 年微软研讨院发明的 ResNet 需求的核算量是 7 乘以 10 的 18 次方次核算(ExaFlops)。当然,能够核算一下用一颗 24 核的 CPU 来核算,大约需求多久能完结这些核算,也能够核算用几千个中心的 GPU 来算需求多长时刻?;蛐硎切枨蠹父鲈禄蚣父鲂瞧诘氖笨?。除了核算量在添加,模型巨细也在添加,ResNet 这种 CNN 模型一般是几千万参数,需求几百兆字节的存储空间,百度研制的 Deep Speech 模型到了三亿参数的规划,然后 Google 的机器翻译模型 NMT,现已到了几十亿参数,整个模型在一块 GPU 上现已放不下了。这种情况,数据并行杯水车薪,需求模型并行或流水并行来处理大模型的分布式练习问题。很不幸,现在还没有开源结构支撑这些需求,一些大公司通过内部定制的体系来支撑这种需求。

本年上半年 Facebook 发布了一个研讨成果,搜集 35 亿张弱标示图片,运用几百块 GPU,通过挨近一个月的时刻,练习了一个用于图片分类的卷积神经网络模型,它能做到什么作用呢?能前进 6 个百分点的准确率。这是十分了不起的成果,算法基本上没什么改变,只是是通过选用更多的数据和核算就能把 top-1 的准确率前进了这么多。要知道,关于一个商业价值很高的场景,前进 0.5 个百分点或许是一个团队一年的 KPI。

九月份 Google 宣布了 BigGAN 模型,研讨人员通过前进图片的分辨率来练习更大的 GAN 模型,CNN 中心的 activation 和反向 gradient 会十分多,当然核算量也会大的十分多,根据 TPU 集群来完结练习。这个手法相同取得了比曾经的 GAN 模型好的多的作用。

上个月,Google 又宣布了 BERT 模型,相当于一种大的多的 transformer 模型,在 16 个 TPU 上练习了 4 天,然后根据这个言语模型作为骨干网络去处理各种常见的自然言语处理使命,发现在各使命上全面逾越了曾经的办法。很不幸,现在还没有出现在 GPU 集群上从零开端练习 BERT-Large 模型的办法,假如想在自己的事务里运用 BERT,只能去下载 Google 预练习好的模型,然后做少量微调来运用。这倒不是资源缺乏的问题,即便是现已建立了大规划的 GPU 集群的客户也力不从心,有钱也处理不了。

深度学习通过这几年的爆发式开展,特别有目共睹的算法层面的立异越来越少了,本年比较招引眼球的前进都来自于核算力,也便是人们常说的「大力出奇观」的办法。怎样才干让更多的企业用户能享用到算力进步的盈利,协助算法科学家完结更多的 KPI, 这是 OneFlow 十分关怀的问题。常言道,工欲善其事必先利其器,结构在深度学习研讨和落地的进程中就扮演了「东西」的人物,好的东西能大大加快人工智能研制的功率,甚至或许成为职业竞赛的决胜法宝。从 BigGAN 和 BERT 等比如也能够看出来,当一家公司把握了其他人不把握的东西时,就能够引领算法研讨的潮流,反过来,当一家公司的基础设施跟不上的时分,也就没办法做前沿探究,即便是做研讨也只能跟在 Google 后边,因而称深度学习结构是人工智能制高点的战略武器一点不为过。

根据纯硬件的处理思路

事例:

  • Nvidia DGX-2

  • IBM Power9 Server

英伟达通过出售 GPU 成为这一波 AI 核算力盈利的最大受益者,英伟达除了把单个设备做的越来越快,也做了效劳器架构方面的许多立异,出品了一系列超级核算盒子,每个盒子里边能够集成 8 个或许是 16 个核算力十分强的 GPU(比如 DGX-1 是 P100,本年推出的 DGX-2 是 V100),更特别的是,这些 GPU 之间运用了十分高速的互联,能够完结 GPU 之间点对点 150GB 以上的传输带宽,比常见的 PCIe 带宽要高一个数量级。这种规划使得 DGX 效劳器能够使得 16 块 GPU 一同作业时简直像一个单体芯片那样输出超强算力。

当然还有比 DGX 更特别的效劳器,比如说 IBM 出的 Power9 Server,它的共同之处在于他的 CPU 运用了不同于 Intel x86 CPU 的架构,并且支撑 CPU 和 GPU 之间 NV Link 互连,意味着 CPU 和 GPU 之间的数据传输也能够做到 150GB 以上的带宽。现在世界排名榜首的超级核算机 Summit 就运用了相似 Power9 Server 的架构。

根据这么强的硬件就能处理核算力的问题吗?

IBM 和 Nvidia 一同建立了世界上最强的超级核算机 Summit,总共用了 2 万多块 V100 GPU,还运用了最先进的互联技能 (NVLink, Infiniband),要说最强的硬件,除了 TPU Cluster,应该没有更好的了,这是不是就够了呢?IBM 首席科学家在本年的 ASPLOS(核算机体系结构尖端会议) 上做了一个特邀陈述,主题是「只要很强的硬件,没有很好的软件仍是不能处理扩展问题」。现在国内具有几千块 GPU 甚至上万块 GPU 的头部公司不在少量,但根据开源结构能练习 BERT-Large 模型吗?不可,这也印证了软件结构瓶颈的问题:购买了许多的硬件,但用不起来,或许说不能很好的用起来。

理念:纵向扩展与横向扩展

1.纵向扩展

纵向扩展是通过把单个设备或许是单个机器做的越来越强,或通过编译器优化的手法让作业在一个设备上或许是一个机器内部把硬件功能发挥到极致来满意现在日益添加的核算需求。硬件从多核架构 CPU 开展到众核架构 GPU,GPU 从 P100 到 V100, 为了寻求更高的功率,甚至研制 FPGA 或 ASIC 芯片来取得更高算力。当时最闻名的 AI 芯片是 Google 的 TPU,寒武纪,华为,阿里,百度等本乡公司也在研制 AI 芯片。AI 芯片的首要问题是有物理束缚(比如制程,功耗,同步时钟等等束缚),人们不能出产出核算力恣意大的芯片。也有人把这个现象称为硅基扩展瓶颈(Silicon Scaling)。除了前进单个芯片的吞吐率,英伟达的 DGX 也是纵向扩展的比如,DGX 通过在一个机器内部高速互联手法完结芯片之间点对点极高的传输带宽,然后使得多芯片间协作起来愈加高效。

横向扩展

假如纵向扩展仍不能满意需求,人们持续把多台效劳器通过高速以太网或 Infiniband 衔接起来组成集群来完结更高算力。假如能投入多少硬件资源,就得到多少核算力,那核算力瓶颈就便利的处理了。抱负很饱满,实际很骨感。一方面,芯片间互联带宽要比片内数据拜访带宽低一到两个数量级,在芯片间转移数据成为瓶颈,另一方面,编写在多芯片上高效运转的软件十分应战,以深度学习为例,神经网络的结构不同,功率最高的并行办法(逻辑使命向物理核算单元的映射)也不同。在集群上完结线性加快比纵向扩展更有幻想空间,但完结难度更大。一个抱负的横向扩展计划,不论底层实际运用了多少松懈耦合在一同的芯片,在上层用户眼里就像在一个专门为当时使命打造的巨大单体芯片相同,编程简略并且使命运转时能把底层每一个独立的芯片都运用充沛。要完结这个意图,有必要依托软件结构。

逻辑使命到物理拓扑之间的最优映射杂乱多变

给定一个特定的神经网络模型和一批核算资源,从使命到设备之间的映射有多种办法,但不同的映射计划运转功率不同。哪种计划最优既取决于作业自身的特性,也取决于底层硬件的拓扑。神经网络由许多部分核算(一般称为 kernel)建立组成,每一个部分核算是选用数据并行,仍是模型并行取决于这个部分使命的核算传输比。现在业界评论比较多的卷积运算参数量很小,但中心成果量大,所以最合算的办法是对数据进行切分,不同的设备处理不同的数据,在设备之间偶然进行参数同步,这种数据并行办法基本上是一个现已被处理的问题?;褂幸恍┰怂?,中心核算成果相关于参数量更少,就适宜模型并行?;褂幸恍┩?mark data-type=technologies data-id=2e982b73-88e2-41e8-a430-f7ae5a9af4bf>参数量很大或中心核算成果都很大,或许选用流水并行(也便是接力的办法)是最优的。模型并行和流水并行中通讯的数据路由要比数据并行杂乱,一起,怎样堆叠核算和传输然后前进设备运用率也十分应战,现有开源结构对这些更杂乱的并行办法的支撑还比较初级。

通讯密布,推迟灵敏

左图展现了一个常见的大数据处理引擎的架构,集群中的核算资源一般分红用于中心调度的 Master 节点和用于处理数据的 Worker 节点。Master 节点以有向无环图(DAG)的办法办理整个作业的进展,一起监控一切 Worker 的资源运用情况,在适宜的机遇把一个子使命(Task)分配给某个 Worker 去做,某个 Worker 在完结一个子使命之后,会向 Master 节点报告,等候 Master 分配新的使命。在传统大数据处理中,Worker 履行一个子使命的时刻量级一般在几十秒钟或数分钟。其它开支,比如发生在 Master 节点那里的排队开支,Master 和 Worker 之间对话的时刻开支,以及数据传输开支都是数十毫秒,相关于 Worker 的作业时刻能够被疏忽??墒?mark data-type=technologies data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习练习的负载与此不同,深度学习练习更挨近流式核算,一方面是因为随机梯度下降算法选用的小批次练习,核算粒度小,另一方面是因为底层硬件吞吐率或许是 CPU 的数十倍,核算太快。直接成果便是,数据处理时刻越来越短,每个子使命或许几百毫秒就完结了,在这种情况下,之前可疏忽的那种几十甚至几百毫秒的开支就十分明显了,假如不能通过技能手法把这些开支消除或掩盖掉,整个体系的功能就十分低。

02OneFlow 技能打破

根据静态调度的流式核算引擎

为了对恣意作业和资源都到达相似巨大单体专用芯片的作用,OneFlow 创始了静态调度(左图)和流式履行(右图)架构的深度学习结构。静态调度是什么思路呢?它来自于核算机体系结构。咱们熟知的 CPU 芯片中真实做算术运算的器材只占很小份额的面积,大部分面积在做乱序履行,流水线和缓冲区的办理。学界和工业界很久曾经就开端探究怎样让芯片的有用面积尽或许多的做算术运算,静态调度的思路应运而生,基本上是把流水办理,指令排布之类的作业从硬件转移至编译器。这样硬件杂乱度就能够大幅下降,当然编译器杂乱度必定会前进许多。有一个叫 VLIW(超长指令集架构)的指令集就选用了这种思路。OneFlow 的静态调度体现在两方面,首要,编译器主动处理从逻辑使命到硬件资源的映射,包含数据并行,模型并行,流水并行的设备分配以及数据路由计划,大大下降了分布式编程的杂乱度,用户只需求关怀使命的逻辑结构以及本次使命可运用的硬件资源,而不用去编程完结数据在硬件资源中的活动机制;其次,静态调度把一切能在正式运转之前得到的调度战略,资源办理战略等问题都在编译阶段处理,运转时就不需求在线求解最优的调度计划,然后大大下降运转时开支。

通过静态编译,每个设备担任运转的子使命是预先可知的,每个子使命的上下游依靠也预先可知,在运转使命时,就不再需求中心调度器,只需求支撑上下游使命之间部分的握手信号即可,即出产者向顾客发送的恳求以及顾客向出产者发送的承认,整个体系以全链路异步的办法运转。这个思路也来自于芯片规划范畴一种叫异步电路的技能。OneFlow 另一个差异于其它深度学习结构的特征是把数据转移当作一等公民,在静态剖析阶段就把磁盘 IO,主存和设备之间数据转移,节点间数据转移看作和核算平等重要的使命,在价值剖析和调度战略里作为一等公民进行显式建模,然后得到堆叠传输和核算的最优计划。与此相对,已有开源结构把数据转移当成二等公民处理,编译期的留意力首要会集在核算的优化上。了解软件界说网络(SDN)技能的朋友能够发现,OneFlow 编译器相当于网络的操控平面,用于获取数据核算和转发战略,运转时相当于网络的数据平面,履行体按照操控层面的战省略转发和处理数据。

产品比照

OneFlow 历经两年的研制,2018 年 10 月份才推出 1.0 版别,仍是一个很年青的体系,现在正在客户的出产环境里边试用和迭代。脚踏实地的讲,咱们在模型的丰厚程度,易用性,多言语支撑等方面还有比较大的进步空间,现在是落后于其它结构的??墒?,OneFlow 在企业级大规划运用上是称得上遥遥领先的:(1)分布式最简单运用,用户在写程序的时分是感触不到多机和单机的差异的;(2)OneFlow 支撑数据并行,模型并行和流水并行,而其它结构只支撑最简单支撑的数据并行;(3)OneFlow 在分布式练习时的扩展才能,加快比是最优异的。这些特色也正是 OneFlow 作为企业级深度学习结构,比已有开源深度学习结构优异之处。

人有我优,用数据并行加快 CNN 练习

卷积神经网络(CNN)作为最简单处理的一个问题,是咱们最喜欢拿来做基准测验的运用。在曩昔一年,许多公司用数据并行办法,现已能够用数千块 GPU 做到几分钟就在 ImageNet 数据集上练习好 ResNet 模型。假如发现 TensorFlow参数效劳器不给力,上层运用 Horovod,底层运用 Nvidia NCCL 现已能够做到很漂亮的成果。需求留意的是,曾经社区有一个知道是 TensorFlow 并行做的欠好,速度比其它结构慢,实际上今日现已不是这样了,TensorFlow 团队的 benchmark 项目(https://github.com/tensorflow/benchmarks)针对 CNN 做了许多优化,做数据并行现已是开源结构里最优异之一了。咱们运用彻底相同的算法和硬件 (V100 GPU, 100Gbps RDMA 网络),和 TensorFlow benchmark 比照会发现,无论是根据单机多卡,仍是多机多卡都是比 TensorFlow 快。上图左面是 OneFlow,右边是 TensorFlow,除了 AlexNet 遇到硬件瓶颈,OneFlow 都能做到线性加快,TensorFlow 在单机多卡和多机多卡上与 OneFlow 仍是有必定的间隔。

阿姆达尔定律

上面的评测成果中,在 32 卡时,OneFlow 仍是线性加快,当卡数添加到必定程度,比如几百或许是上千时迟早会遇到天花板。并行功率不同的体系,只是遇到天花板时刻迟早的问题,这是阿姆达尔定律所提醒的规则。比如说上图绿色曲线表明一个并行度(parallel portion)为 95% 的使命,什么时分遇到天花板呢?能够核算出来,加快到 20 倍的时分就到了天花板了,后边投入再多的资源进去它也不或许再加快了。假定体系的并行度不随卡数改变,在卡数少时,大部分体系仍是比较挨近线性的,各个体系之间不同很小,但当卡数增多时,体系迟早会遇到天花板,即便添加再多的 GPU 也不会进一步进步吞吐率。这表明,在卡数比较少时完结线性加快比不必定能在卡许多时还能完结线性加快,但在卡数较少时就完结不了线性加快,在卡数更多时必定间隔线性加快更远。由此可见,把体系的运转时开支优化到极致,关于大规划集群练习功率是至关重要的。

人无我有,分布式练习 BERT-Large 模型

BERT-Large 是谷歌最近推出的一个学习言语模型的大型神经网络,基本上在常见的自然言语处理使命上都明显逾越了曾经的办法。BERT-large 有 24 层,整个模型大约 1.3G,每一层中心成果都蛮大的,假如不做内存优化,关于 32GB 显存的 V100,一次也就处理八九个语句。尽管 BERT 是个大杀器,但客户想根据自己语料从头练习一个 BERT-Large 模型,却不或许。谷歌在 TPU Cluster 上用 16 个 TPU 练习 BERT-Large 需求 4 天时刻。没有 TPU 的用户,只能运用 GPU,最首要的是,现在还没有开源的分布式处理计划,谷歌放出来 TensorFlow 代码只支撑单 GPU 卡,假如用户做一些定制去支撑分布式,很惋惜,加快比也很不抱负。如左上角图所示,即便是在有 NVLink 互联的单机八卡效劳器上,TensorFlow 也只能完结四五倍的加快,按这种加快比去核算一下,即便是运用几十块 V100 也是需求一个月以上的时刻。在 Google BERT 论文宣布后不久,咱们团队就根据 OneFlow 完结了和 TensorFlow 准确率相同的 BERT,在单机八卡效劳器上数据并行挨近线性加快,在 8 机 64 卡的装备下,也能跑到 50 倍以上的加快比。这还不是线性加快比,咱们正在做一些优化作业,不久以后关于 BERT-Large 在多机多卡也能完结线性加快比。OneFlow 现在的完结在单精度条件下只需求 8 天就能练习出来 BERT-Large 模型,假如加上半精度支撑,时刻会再缩短一半,只需求三四天。需求指出的是,Google BERT 的词典只要 4 万个单词,当词表到达几十万或上百万等级时,embedding 层就无法用数据并行核算了,有必要做模型并行,而后续的层次能够持续运用数据并行,也便是混合并行,OneFlow 能够很便利的支撑起来。最近,咱们现已开端为几家头部互联网公司供给 BERT 练习效劳,在客户自己的数据集上练习 BERT-Large 模型。

以练习安防范畴的大规划人脸辨认模型为例,当人脸类别到达百万级时,最终的全衔接层有必要运用模型并行,要处理这个问题,用户就不得不深度 hack 已有开源结构,此刻会面对易用性和高效性的难题。词嵌入和广告/引荐体系范畴也存在许多大模型的问题,模型容量可达几十 GB 甚至几百 GB 甚至 TB,也只要少量头部企业不计研制本钱才干做一些定制开发来支撑这些需求。OneFlow 能够很便利高效的支撑这些需求,大大节约用户本钱,协助用户完结曾经搞不定的工作。

03 总结

一路走来,咱们深切体会了 do right things, do things right 如此重要。在许多方向里,咱们通过重复证明,以为这个范畴最要害也最难的问题是横向扩展,从公司建立之初,就立下处理这个业界公认难题的方针。不同于其它结构的技能道路,OneFlow 以软硬协同规划为指导思想,从芯片规划范畴学习了很多有利的思路,在纯软件层面处理了横向扩展难题。咱们坚信现在 OneFlow 的技能道路是处理深度学习横向扩展难题的必经之路,在咱们走通这条途径之后,很快乐看到技能社区其它团队现已开端沿着这个方向进发。立异和发明是 OneFlow 决胜的法宝,只是 follow 已有结构走过的路是不或许完结逾越的,唯有立异才有时机。最终,咱们深感真实有价值的事都是长距离跑,除了技能要素,情怀和坚持也必不可少,seeing is believing, believing is seeing。

应用 | 游戏 | 资讯 | 联系我们 | Welcome-牛牛游戏平台 | 八卦 |

浙公网安备 33060202000544号
Copyright?十八楼 All Rights Reserved.

排列三预测_排列三预测官网 | 韩国快乐8官方网站 | 赛迪网 | 携程 发文 赚钱 快递柜卖家怎么赚钱 梦幻西游手游怎样赚钱快 学电子的如何去赚钱 北京麻将捉五魁 便利店加盟赚钱吗知乎 2019有什么app可以赚钱的 房地产跟投能赚钱吗 旅游景区拍照赚钱 两个人玩的福州麻将怎么下载