1热带海岛的再次招手 我们曾经将次旗舰级显卡定义为游戏显卡中的“战列巡洋舰”。它们比旗舰级产品更轻(能耗更低),更灵活(成本更低),但火力(性能)却并不逊于旗舰级显卡。对于游戏玩家而言,次级旗舰级的显卡产品更值得关注和购买。
2013年11月5日,AMD正式发布了基于Hawaii架构打造的新一代次级旗舰显卡——Radeon R9-290。Radeon R9-290承袭了先前发布的Radeon R9-290X的绝大部分特点,面向高端游戏玩家,以包括4K UltraHD分辨率及多屏拼接在内的各种高分辨率/超高分辨率应用场合为目标。该款显卡的发布,标志着Hawaii架构的全面来临以及AMD同NVIDIA在游戏显卡市场的新一轮竞争正式拉开了帷幕。
Radeon R9-290
Radeon R9-290相对于Radeon R9-290X都有哪些变化和不同?它的实际表现又将会是怎样的呢?在接下来的测的是当中,我们将会为您全面的展现该款显卡的特色。
》现在去显卡道转转《|》看看今日最新文章《
》显卡精彩美图汇总《
2R9-290规格揭秘
● R9-290规格揭秘
Hawaii架构是Graphic Core Next的最新改型,基于该架构的Radeon R9-290与Radeon R9-290X一样拥有了AMD史上最为庞大的规模。它集成62亿晶体管,核心面积上升到了438平方毫米,这一数值已经超越了AMD在DirectX 11时代所划D线(什么是D线? 它会导致怎样的问题?)上空间的上限(338+33.8平方毫米)。Hawaii的GPU芯片集成度,亦即单位面积的晶体管密度有了较大改变,集成度的提升降低了芯片总面积以及芯片的制造难度,但同时也改变了芯片内部的热密度分布,对于纾解D线压力可谓是一把双刃剑,而且为Hawaii的功耗表现埋下了伏笔。
与Radeon R9-290X相比,Radeon R9-290的运算资源总量从2816个ALU下降到了2560个,Texture Filter Unit由176个削减到了160个,构成后端的ROP则维持了相同的64个。Hawaii拥有庞大但经过重新设计的MC结构,8个64bit双通道显存控制器组合形成了512bit显存控制单元,显存容量也因此而从Tahiti的3072MB提升到了4096MB。这一系列后端特性在Radeon R9-290上均得到了保留。
*注:市场定价均为官方首发限价
Radeon R9-290的默认核心及显存运行频率为947/5000MHz,AMD Boost可将核心频率调回至800MHz,其默认Pixel Fillrate能力为60.6Gpiexls/S,默认Texture Fillrate能力为152Gtexels/S,显存带宽320GB/S。Radeon R9-290拥有4.9T Flops的单精度浮点运算能力,理论上拥有1.225T的双精度浮点运算能力。
Hawaii架构图
Hawaii架构芯片由以下主要的部分组成:
1、与Tahiti相同的基于HKMG的TSMC 28nm工艺。
2、与Tahiti不同的宏观并行结构,44组CU单元被分为4个Shader Engines,每个Shader Engines包含11组CU。Radeon R9-290削减至40组但仍维持4SE并行结构。
3、与Shader Engines一一对应的4组Geometry Unit(几何处理单元)以及4组Rasterizer(光栅化单元)。
4、ACE异步计算单元的总量由2组提升至8组。
5、改进结构的MC单元,当前的8x64bit双通道显存控制器可以实现512bit显存位宽,并可在5000MHz显存频率上实现320GB/S的理论位宽,但该显存控制器所占资源数量却不到现有显存控制器逻辑设计方案的50%(面积/晶体管)。
6、调节控制粒度、突出低噪音及高温高性能耐受能力、同时频率控制范围更大的新一代AMD Boost。
Radeon R9-290照片
相对于我们所熟悉的Tahiti,Hawaii架构既亲切又有些陌生。尽管我们已经在Radeon R9-290X中对其架构革新进行了详尽的描述及意义探讨,但这一新鲜架构的特性仍未被更多公众所获知。所以接下来,就让我们从细节层面再次复习一下Hawaii架构的各种特点吧。
3奋起直追的并行度
● 奋起直追的并行度
作为GCN架构的改良版本,Hawaii在诸多方面进行了修改,并行度的提升便是其中之一。宏观并行结构本身并不会给GPU带来通常意义上的直接可量化图形性能提升,但宏观并行度提升的副产品,也就是几何单元以及光栅化单元的增加,以及宏观并行度提升所带来的线程管理以及任务执行效率的增长,都将会给GPU的性能增长带来助益。
宏观并行度提升的Hawaii架构
Hawaii拥有4 Shader Engines的宏观并行结构,单位周期内可以并行处理4个多边形,几何处理能力以及坐标变换等光栅化处理能力均为前代Tahiti架构的两倍。
Hawaii的另一大前端改进来自ACE单元,这与整个体系的并行度及并行执行能力息息相关。ACE全称Asynchronous Compute Engine,译为异步计算引擎。作为AMD GPU最前端的组成部分,它的实际作用其实与几何以及光栅化等图形过程并没有直接的联系。ACE位于整个GPU的最前端管理任务队列,它会将线程块规整的分发给后面的ALU团簇。ACE是所有GPU任务的起点,它的存在和表现直接关系到了GPU进行图形及通用计算任务是的效率表现。在Hawaii架构当中,ACE的总量较之Tahiti提升了4倍,达到了8组。
8组ACE单元
除此之外,Hawaii的ACE单元在功能性层面也有提升。新的ACE单元支持L2 cache及GDS的直接访问及管理工作,可同时管理总计64个任务队列(8x8 queues),支持独立并行的任务运作及调度,可以实现图形命令及任务的并行处理,这不仅有助于整个架构实现更为快速的上下文切换功能,同时进一步改善任务密度和单元复用情况。
Hawaii的宏观并行结构
Hawaii内部划分明确的子处理单元代表了AMD在宏观并行度层面对竞争对手的追赶,从结构角度而言,Shader Engine与GPC的差异已经不大。尽管多shader engines构成的ALU集群仍旧可以被视为一个整体,同时也没有迹象表明AMD放弃了抢占式多线程等前端任务管理机制,但Hawaii架构的宏观并行度较之Cayman/Tahiti架构仍旧有了明显的提升。这是AMD GPU架构演进过程中里程碑式的一步,将会对未来的AMD图形架构乃至整个HSA通用计算架构的发展产生至关重要的影响。
4延续结构的core
● 延续结构的core
较之并行度方面的提升,Hawaii的直接运算部分亦即CU单元的结构并没有发生任何本质性的变化,它依旧维持和沿用了GCN架构的标准结构。在首代GCN架构的Tahiti当中,AMD将ALU团簇从VLIW SIMD改进成了Vector Compute Unit,我们亦可简称其为CU。CU单元内部包含4组SIMD CORE,每组SIMD CORE由16个标准Vector ALU构成,所以一个CU单元拥有64个Vector ALU。
Hawaii沿用了这样的CU单元设计,架构总计包含44个CU单元,合计拥有2816个Vector ALU。除了负责浮点吞吐的SIMD CORE之外,Hawaii构架的每个CU单元同样拥有在一个Scalar Unit,Scalar单元中包含Int ALU单元,可以用来处理整数指令以及特殊函数。另外,对线程效率至关重要的原子操作(Atomic)也在该单元中执行。
Tahiti构架CU结构细节
运算单元之外,Hawaii构架的每个CU还绑定了由Branch和Scheduler构成的二级线程控制机制,以及一个完整的Texture Array,Texture Arroy的作用与传统AMD构架中的TMU基本相同,包含了完整的Texture Fetch Load/Store Unit以及Texture Filter Unit。
由于整个结构并未发生变化,Hawaii的CU内部以及CU周边的缓冲资源也维持了前代的标准。CU内部拥有独立的32K GDS(Golbal Data Share),其中可以划分出16K作为L1 Data cache,另外每个CU还拥有独享的64K LDS(Local Data Share)。在一级缓冲和Shared之外,Hawaii的CU单元还拥有共享的L1 Instruction cache和Kernel cache,密度应与Tahiti维持一致,计每4个CU共享16K的L1 Instruction cache和32K的Kernel cache。
Hawaii架构的CU结构
最后,由于后端的直接放大以及cache体系的必要调整,Hawaii构架的L2 Data cache尺寸发生了变化,L2 cache拥有沟通上级缓冲与显存的作用,它需要与MC一一对应,因此Hawaii共拥有8组合计1024K的L2 cache。L2 cache面向所有CU中的单元开放,ALU可以用它缓冲数据,TMU也可以用它充当Texture cache。值得注意的是,由于Hawaii的CU单元数量增长与L2规模增长不成比例(40/6 VS 44/8),每个CU单元能够获得的L2使用密度(时间/空间)较之Tahiti有所下降。但AMD将Hawaii架构的L1/L2传输带宽提升到了1TB/S,在一定程度上冲淡了资源密度下降带来的影响。
5最大的“奇迹”——显存控制器
● 最大的“奇迹”——显存控制器
整个Hawaii架构中最重要的革新来自其全新结构设计的显存控制器体系,新的显存控制器以更小的面积和资源实现了更大的理论位宽,大大增加了每平方毫米可用带宽数量。
Hawaii拥有8组64bit双通道显存控制器,其理论总位宽达到了512bit,在此基础上,AMD宣称该组显存控制器的“占地面积”相当小,比现行架构中的6x64bit方案还小20%,每平方毫米显存控制器单元的理论可用带宽由此增加了50%。
Hawaii架构的MC体系
常规来讲,由于互联以及控制单元的激增,维持延迟在可控范围内的高频512bit显存控制器通常会比384bit显存控制器多占用接近100%的资源总量(面积/晶体管),Hawaii这一显存控制器所占资源情况,意味着其所采用的单位逻辑结构方案较之现行方案减小了50%以上的规模。这不仅为GPU节约了大量宝贵的晶体管资源,同时也大幅削减了芯片的最终面积,尤其是面积的削减对于饱受D线压迫的AMD来说是极其珍贵的。
全新设计的显存控制器
当然,显存控制器的改变看似脱胎换骨,实则并没有所谓的奇迹存在,新设计的显存控制器是一个更加倾向与理论而非实际吞吐性能的结构,尽管AMD没有公布更多细节,我们无从知晓新的显存控制器究竟是在互联还是其他层面进行了结构缩减,但我们可以肯定它并没有挑战现行的显存控制器设计基础,也没有采用本质上可以提升单位有效吞吐能力的新结构。我们会在接下来的测试中见识这一结构产生的真实性能,并剖析其对整个架构带来的性能影响。但请注意,我们并不是为了要指摘这一结构设计的失当,相反,我们对Hawaii的显存控制器设计报以了极高的评价。
Hawaii架构的显存控制器是一个在较少的资源消耗和较低的有效性能当中求得平衡的设计,其中最值得注意的并非最终性能,而是AMD所进行的平衡。新结构的MC单元与其说是源自功能性和结构性的改变,倒不如说是AMD的GPU架构设计思路发生了重要变化,这一变化颇为关键,甚至可以说是一门艺术。
6新MC的评价——正确的抉择
● 新MC的评价——正确的抉择
逻辑结构的设计实际上是一个资源使用的平衡与取舍的艺术,在有某种特定约束范围作为前提的情况下,如何正确的使用定量资源并将其划分成正确比例的部分,进而有针对性的解决不同的矛盾,是一个体系能够成功的基础。
让我们换几个通俗的说法吧——就那么多钱的话,怎么最有效率的花出去是关键。就那么多晶体管的话,怎么最有效率的将其用在最需要的地方是关键。就那么多芯片面积的话,从一切可能的地方挤出面积来给最需要面积的部分是关键。
以Hawaii架构以及当前的AMD而言,逻辑结构设计过程中最大的问题无疑在于D线和既有的寄存器负担的强烈压迫。受限于D线对芯片面积的约束,在DirectX 11时代缺乏大芯片设计制造经验的AMD不可能随心所欲的制造与竞争对手同等规模的“巨无霸”,甚至在挑战400平方毫米级别时,每向上一平方毫米所带来的功耗增长及可制造性下降都会让试探变得更加困难。与此同时,寄存器所导致的晶体管负担也束缚了希望释放运算资源规模的AMD的手脚。尽每一份可能瘦身并用更小的面积来实现更多的性能,显然是AMD现在最迫切同时也是最困难的任务。究竟要怎样做,才能达成这样的任务呢?
平衡性能和消耗是AMD在Hawaii上面对的首要问题
AMD选择了从显存控制器这一极其消耗资源的部件着手,以单位有效带宽更低但理论带宽更高,同时更加节省资源的方案替代当前有效带宽更高但更加消耗资源的方案。
细化到具体做法,就是先修改现有的显存控制器逻辑结构,尽最大可能的简化单位逻辑结构所需要消耗的晶体管和互联资源,然后获取由此结构简化导致的新增延迟以及有效带宽衰减情况,接着再通过添加同类单位逻辑结构总量进而提升总位宽的形式抵消这部分新增延迟以及有效带宽衰减所造成的影响,最终在总有效带宽不弱于当前GPU架构的前提下确定资源消耗最少的显存控制器总位宽规模,这就是Hawaii显存控制器的设计指导思想。
尽管Hawaii的显存控制器并没与表现出与正常规模显存控制器相当的实际性能,但我们显然并不排斥这样的设计,它体现了AMD在GPU设计思路上仍旧保有的成熟。以最小的代价获取最大的收益,或者说以最小的代价来尽可能的弥合体系内部其他矛盾所带来的影响并获取最大的收益,这是十分成熟的解决问题的思路。我们曾经认为AMD与ATI的合并、前CEO Ruiz的一系列屡破下限的愚蠢还有各种不利的其他因素,已经让原本属于AMD和ATI研发团队的核心灵魂随风而逝了,漂亮的解决问题的过程将越来越难以出现在AMD的逻辑结构设计过程当中,可是Hawaii又让我们看到了希望。
在Hawaii身上,AMD/ATI之魂无疑仍在发光。
性能增长与芯片“瘦身”,新MC居功至伟
Hawaii以显存控制器单元为基点,在维持一定性能层级的前提下从其中“相对”节省了大量晶体管和芯片空间资源,并将其转化成了ROP/CU/ACE/Geometry乃至cache等等更为直接的性能提升资源,同时收窄了芯片面积并在所有的性能功耗组合方案当中找到了相对更理想的平衡,这种更有效的使用晶体管资源的抉择完全可以用“漂亮”来形容。在目前手中的可选牌为数不多的情况下,这是AMD能够打出的最出人意料同时也是最漂亮的一套组合。
这世界上没有设计错误的逻辑结构,只有设计是不是符合时宜的逻辑结构,能够在正确的被需要的时间出现,这种逻辑结构就是OK的。诚然,也许Hawaii这套新的显存控制器的实际性能并不能令所有人感到满意,也许把它放在别的GPU架构当中会导致该架构的最终落败,但在此时此刻,在Hawaii身上,在饱受D线压迫的AMD身上,这套显存控制器是全世界最棒的方案。
7Hawaii的更多“武器”
● Hawaii的更多“武器”
除了逻辑结构层面的改进之外,Hawaii还进行了许多功能性层面的改进,这些改进包括新一代Eyefinity,DirectX 11.2、mantle以及TrueAudio。
新的增强型Eyefinity
新一代增强型的Eyefinity的改进并不多但却相当务实,它大幅降低了组建三屏拼接组合的难度,它不再强制要求DP接口的参与,现在用户们仅需使用DVI+HDMI接口,便可以直接轻松的完成三屏拼接显示输出的组建工作。
AMD新API——Mantle
DirectX 11.2是微软为DirectX 11进行的一次小版本升级。除了各种面向接口的升级之外,DirectX 11.2带来的最主要的更新来自Tiled Resources技术。该技术旨在允许程序员透过虚拟化的操作方式开辟虚拟显存空间,同时透过Tiled的方式减少材质在渲染过程中的真实需求量。应用该技术可以减轻材质渲染对显存容量以及位宽的压迫,这不仅对PC系统的GPU有利,对采用小容量eSRAM作为缓存系统的XBOX One也将会产生重要的影响。
Mantle将会成为未来AMD的硬件优化组成部分
Mantle的情况较之前两者更为特殊,按照AMD官方的描述,这应该会一个独立在DirectX以及OpenGL以外的图形API,可以允许程序员绕过上述API直接访问AMD GPU的底层ISA并直接调用各种功能。尽管三缄其口同时对特性描述并不详尽,但如果AMD的描述没有问题的话,它将会是Glide之后的首个全新图形API,它的出现不仅给AMD GPU带来了新的契机,同时势必会对微软以及Khronos控制的图形API生态环境提出全新的大胆挑战。
TrueAudio技术
TrueAudio细节
TrueAudio是Hawaii架构最奇特的功能性改进。该功能通过内建在芯片中的Multiple integrated Tensilica HIFI EP Audio DSP,首次在GPU上实现了8声道环绕立体声输出,并带来了逼真的音效处理效果。TrueAudio可以在3.5mm耳机、USB输出设备以及复数个支持HDMI/DP Audio的显示设备上实现输出,这为游戏过程的体验提升带来了新的机会。
8AMD Radeon R9 290拆解赏析
● AMD Radeon R9 290拆解赏析
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
9微星 R9 290拆解赏析
● 微星 R9 290拆解赏析
微星 R9 290
微星 R9 290
微星 R9 290
微星 R9 290
10镭风 R9 290拆解赏析
● 镭风 R9 290拆解赏析
镭风 R9 290
镭风 R9 290
镭风 R9 290
镭风 R9 290
11测试平台一览
● 测试平台一览
为保证测试能够发挥显卡的最佳性能,本次测试的平台由Intel 酷睿i7-3970X处理器、X79芯片组主板、威刚16GB DDR3-1600四通道内存组建而成。详细硬件规格如下表所示:
测 试 平 台 硬 件 环 境
中央处理器
Intel Core i7-3970X
(6核 / 12线程 / 3.5GHz / 15MB L3)
散热器
Sapphire Vapor-X
(LAG2011 单塔风冷散热器)
内存模组
ADATA XPG DDR3-1600 4GB × 4
(SPD:9-9-9-24-1T)
主板
GIGABYTE GA-X79-UD7
(Intel X79 Chipset)
硬盘
Seagate Barracuda 1TB
(1TB / 7200RPM / 32MB缓存 / SATA3)
电源
Antec HCP-1000
(80Plus Platinum / 1000W)
显示器
DELL Ultra Sharp 3008WFP
(30英寸LCD / 2560×1600分辨率)
● 测试平台软件环境一览
为保证系统平台具有最佳稳定性,本次横向评测所使用的操作系统为Microsoft Windows 7正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示:
测 试 平 台 软 件 环 境
操作系统
Microsoft Windows7 Ultimate RTM SP1
(64bit / 版本号:7601)
主板芯片组驱动
Intel Chipset Device Software
(WHQL / 版本号:9.2.3.1022)
NVIDIA显卡驱动
NVIDIA Forceware
(for game ready / 版本号:331.58)
AMD显卡驱动
AMD Catalyst
(Beta / 版本号:13.11 Beta V5/V6/V8)
桌面环境
Microsoft Windows7 Ultimate RTM SP1
(2560X1600/32bit/60Hz)
需要特别说明的是,为了保证游戏及测试过程中双方特效设置的完全相同以及公平公正,我们调整了AMD催化剂驱动的AI控制功能,将镶嵌等级从驱动默认的“AMD优化”改回了应有的“应用程序控制”。只有在这样的设置下,AMD显卡才会在游戏中使用正确的游戏自身设置的特效设置等级,而不是AMD预设的更低的特效设置等级。
与此同时,为照顾习惯于默认驱动设置环境使用AMD显卡的用户,我们会同时给出AI优化默认开启状态下的性能测试结果,以供更多用户进行对比及参考。
有介于双方在本轮首发测试过程中所发布驱动的“浮华”,我们决定将AMD最新发布的催化剂13.11 Beta V8纳入到测试当中并与V5/V6版进行平行对比,最终取V5/V6/V8驱动中较高的成绩作为最终比较成绩。
12理论性能测试之3DMark FireStrike
● 理论性能测试之3DMark FireStrike
于北京时间2013年2月5日推出的新3DMark,采用全新界面设计,除了测试分数,还会展现每个场景测试期间的实时曲线,全程记录帧率、CPU温度、GPU温度、CPU功耗。新3DMark取消了传统的E、P、X模式,取而代之的是根据负载不同所推出的三个场景,其中FireStrike专为基于DirectX 11显卡搭建的高端游戏平台,而CloudGate则支持基于DirectX 10环境的主流硬件,IceStorm则支持入门级DirectX 9设备、手机、平板电脑等等。
3DMark FireStrike
新3Dmark FireStrike测试
新3Dmark仍旧是我们理论测试的起点,在这项测试当中,Radeon R9-290所表现出的性能已经超越了GeForce GTX 780。
13理论性能测试之3DMark 11
● 理论性能测试之3DMark 11
PC游戏随Windows 7的发布进入DirectX 11时代,众多DirectX 11显卡早已摩拳擦掌上阵厮杀,却迟迟没有一个权威性的基准测试软件来衡量游戏显卡DirectX 11性能的高低。终于,DirectX 11时代的3DMark 11来到大家面前。3DMark 11使用原生DirectX 11引擎,测试场景包括Tessellation曲面细分、Compute Shader以及多线程在内的大量DirectX 11特性。
3DMark 11
3Dmark 11测试
在3Dmark 11的测试当中,Radeon R9-290的性能来到了GeForce GTX 780与GeForce GTX 770之间,而其相对于Radeon R9-280X的领先幅度则十分明显。
14游戏测试之Crysis3
● 游戏测试之Crysis3
《孤岛危机3》是《孤岛危机》的最新续作,游戏采CryENGINE 3引擎所制作,其卓越的画面表现以及精彩的剧情相信已无需多言。作为硬件杀手的第三代,只支持DirectX 11的Crysis3 PC版再次将游戏的画面精美程度和硬件需求提升到了新的高度。
《孤岛危机3》
我们采用运行Origin平台启动游戏并进行第一关至进入建筑物为止,同时收集期间的平均帧数的方式来完成测试,测试进行三次,取平均成绩作为最终测试结果。
1920X1200 4XAA Crysis3测试结果
2560X1600 4XAA Crysis3测试结果
按照AMD官方为其预设的目标,Radeon R9-290所要完成的任务是战胜GeForce GTX 770。从Crysis3的测试结果来看,Radeon R9-290无疑完成了任务。
15游戏测试之Crysis2
● 游戏测试之Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
《孤岛危机2》
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
1920X1200 4XAA Crysis2
2560X1600 4XAA Crysis2
Radeon R9-290在Crysis2中的表现显然超出了AMD为其预设的任务范畴,它在1920分辨率下的表现甚至超越了GeForce GTX 780。
16游戏测试之杀手5
● 游戏测试之杀手5
《杀手5:赦免》采用IO Interactive自主研发的冰川2(Glacier 2)引擎制作,游戏内容都是在引擎下实时进行反馈的,所有动作都是即时生成的。新作主要场景发生在芝加哥,名为代号47的主角在本作中将更加灵活,更好控制。他将可以攀在悬崖边,还可以保持平衡,游戏融入了掩护系统,挟持人持的功能回归。
《杀手5:赦免》
我们使用游戏自带的Benchmark程序来完成设置,测试进行三次,取平均值为最终结果:
1920X1200 4XAA 杀手5测试结果
2560X1600 4XAA 杀手5测试结果
杀手5的测试结果同Crysis2类似,Radeon R9-290在1920分辨率下再次完成对GeForce GTX 780的超越。
17游戏测试之Metro LastLight
● 游戏测试之Metro LastLight
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky,依旧由乌克兰4A游戏工作室开发并采用改进后的4A游戏引擎。最后的曙光讲述了一场为争夺足以毁灭人类的世界末日装置的内战。人类依旧苟活在地下等死。不同派系之间的战争还在继续,晚上依旧有各种变异生物潜伏在暗处。地面依旧是各种毒气,但有传言冰层开始融化,阳光开始穿透云层。
《地铁:最后的曙光》
我们采取游戏提供的Benchmark程序来完成测试,该Benchmark所包含的场景具有光照系统,烟雾系统以及激烈交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
1920X1200 FXAA 地铁:最后的曙光测试结果
2560X1600 FXAA 地铁:最后的曙光测试结果
地铁:最后的曙光当中,Radeon R9-290的性能介乎于GeForce GTX 780与GeForce GTX 770之间,并且明确无疑的超越了后者。
18游戏测试之古墓丽影9
● 游戏测试之古墓丽影9
《古墓丽影9》将讲述劳拉的首次冒险之旅,主角劳拉·克劳馥的年龄被设定在21岁,那时的她还只是一名刚出茅庐的新人,经验欠缺。随着游戏剧情的发展,玩家将与劳拉共同成长,获得新的武器和道具并习得新技能。在冒险的小岛上,玩家可以在营地对道具进行组合,有些特定区域就需要特定道具和技能才能通过。岛上的各个营地之间可以快捷传送,玩家无需长途跋涉。而除了劳拉外还将有其他角色出现在岛上。
《古墓丽影9》
我们采取游戏提供的Benchmark程序来完成测试,测试进行三次,取平均值为最终结果:
1920X1200 FXAA 古墓丽影9测试结果
2560X1600 FXAA 古墓丽影9测试结果
13.11 beta VX版测试驱动整体来讲完全没有让AMD全系列显卡在古墓丽影9当中发挥出应有的优势,无论是后端亦或是其他方面皆是如此,看来AMD的驱动团队还需要做更多工作,才可以让Hawaii架构的优势得到进一步发挥。
19游戏测试之Dirt 3
● 游戏测试之Dirt 3
《Dirt 3》是Codemasters制作发行的一款赛车竞速单机游戏,作为AMD Gaming Evolution的一款游戏,它采用与《F1 2010》同样的Ego引擎,支持DirectX 11 API,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。
《尘埃3》
我们采用游戏自带的Benchmark来完成测试,最终结果以显示平均帧数为准。
1920X1200 4XAA 尘埃3测试结果
2560X1600 4XAA 尘埃3测试结果
以我们对于Hawaii架构以及Radeon R9-290的理解,Dirt3中该款显卡的表现并不正常,在接下来的驱动当中对其进行补强是AMD需要面对的任务。
20游戏测试之蝙蝠侠阿甘之城
● 游戏测试之蝙蝠侠阿甘之城
蝙蝠侠:阿甘之城(Batman: Arkham City)是2009年最佳动作游戏《蝙蝠侠:阿甘疯人院》的续作,由华纳兄弟出品,该作由Rocksteady工作室负责开发,世界架构仍然建立在《阿克汉姆疯人院》的气氛上,不过这次上升至阿克汉姆之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。新作汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠:黑暗骑士》一般的终极游戏体验。
《蝙蝠侠:阿甘之城》
我们采用游戏自带Benchmark进行性能测试。测试进行三次,取三次平均值作为最终结果。
1920X1200 4XAA分辨率蝙蝠侠2测试结果
2560X1600 4XAA分辨率蝙蝠侠2测试结果
在蝙蝠侠阿甘之城的测试中,Radeon R9-290表现出了与Radeon R9-290X极为接近的性能。
21游戏测试之生化奇兵无限
● 游戏测试之生化奇兵无限
《生化奇兵:无限》将玩家带往1912年,那是巨型飞艇和浮空飞行器的全盛时期,在此背景下诞生了海底销魂城的前辈,即天空之城“哥伦比亚”:这座远离美国海岸自成一体的空中城市在信众的欢呼声中扶摇直上,寄托了美利坚强国之梦,但因其不可告人的目的使其似锦前程不久便急转直下,武装到牙齿的狰狞面目把原本光荣正确伟大的阿波罗登月变成邪恶的死星计划,整座城市消失在云端中自此再无人知晓。
《生化奇兵:无限》
1920X1200分辨率 生化奇兵:无限测试结果
2560X1600分辨率 生化奇兵:无限测试结果
凭借后端的改进以及驱动的提升,Radeon R9-290在《生化奇兵:无限》中表现出了与GeForce GTX 780不相上下的性能,而Radeon R9-290X也从首测的与GeForce GTX 780战平变成了超越。相信随着驱动的进一步更新,Radeon R9-290/290X还将会有更多可以被挖掘的潜力。
22应用测试之天堂4.0
● 应用测试之天堂4.0
《Heaven Benchmark》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本,该程序是由Unigine公司自主研发的游戏引擎设计,支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
《天堂4.0》
2560X1600 8XAA 天堂4.0测试结果
在测试的结尾部分,Radeon R9-290以介乎于GeForce GTX 780和GeForce GTX 770之间的性能完成了全部测试。
23游戏性能综合比率
● 游戏性能综合比率
我们收集了全部8款参测游戏的帧数数据,以Radeon R9-290为基础将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于Radeon R9-290比率的平均值。
Radeon R9-290性能比率(1920分辨率)
Radeon R9-290性能比率(2560分辨率)
综合所有测试项目来看,在游戏中采用最高特效设置的前提下,Radeon R9-290在默认驱动设置时的性能表现介乎于GeForce GTX 780到GeForce GTX 770之间,如果采用更高的分辨率,同时进一步平衡游戏特效设置的话,Radeon R9-290的性能等级还将会有提升至GeForce GTX 780附近的余地。
24架构通用计算测试之Fluid simulation
● 架构通用计算测试之Fluid simulation
Hawaii架构的各种改进进一步提升了其通用计算的效率,这些改进在Radeon R9-290身上能得到怎样程度的体现呢?我们进行了相关的通用计算能力测试。与各种不明就里或者只知道跑理论吞吐测试的第三方测试软件不同,我们进行的DirectX SDK Simulation直接调用微软的DirectX API来完成测试,这些测试的对象和过程都是构成DirectX环境下图形与计算任务的基础,是最直接的针对GPU实际运算性能的测试。以此为基准取得的测试结果,才是真实的能够反映架构运算性能和效率的结果。
Fluid dynamics simulation
我们首先进行的DirectX SDK测试是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数。通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
Radeon R9-290通用计算性能测试之FluidCS
Radeon R9-290的理论运算能力约为Radeon R9-290X的86%,而我们的FluidCS测试基本上吻合了这一结果。
25架构通用计算测试之CSM
● 架构通用计算测试之Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
Radeon R9-290通用计算性能测试之CSM
CSM测试的结果再次显示,尽管Hawaii架构相对于Tahiti架构有了长足的进步,但AMD在Compute Shader的实际应用环节还有很多工作要做。
26架构通用计算测试之OIT
● 架构通用计算测试之OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT(透明独立叠加)
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力
Radeon R9-290通用计算性能测试之OIT
在OIT的测试中,Radeon R9-290相对于Radeon R9-290X的性能下降比较明显,我们认为这种情况会随着后续驱动的更新而改善。
27架构通用计算测试之nBodyCS11
● 架构通用计算测试之nBody Gravity CS11
nBody Gravity的前身来自nBody仿真,nBody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过nBody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成nBody仿真过程并予以解决。
nBody Gravity
nBody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言nBody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此nBody Gravity对于硬件构架的并行度有极高的要求。透过nBody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
Radeon R9-290通用计算性能测试之nBody Gravity
AMD的驱动问题在通用计算测试的结尾再次显现。我们期待AMD提供的新驱动能够真正解放Radeon R9-290以及Radeon R9-290X的性能。
28功耗温度测试
● 功耗温度测试
在功耗及温度测试环节,我们继续采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集Radeon R9-290X显卡的满载温度及平台功耗数据。
Radeon R9-290平台待机功耗
Radeon R9-290平台满载功耗
Radeon R9-290单卡满载温度
高温及高能耗问题再次出现并依旧困扰着Radeon R9-290,但同时我们也应该注意到,Radeon R9-290的功耗问题在Radeon R9-290X的基础上还是有所改善的,这是良好的开端。在今后的AMD架构当中,功耗问题将有机会得到进一步的缓解。
29测试总结——就看推广了 ● 测试总结——就看推广了
综合而言,Radeon R9-290是一款典型的次级旗舰产品。AMD对其进行了适度的或者说同以往相当的规模和频率削减,在这些条件的限制下,其性能最终与旗舰级的Radeon R9-290X拉开了适当的距离。Radeon R9-290的性能符合AMD在R9产品线当中所需要的次级旗舰定位,同时毫无疑问并且超额的完成了AMD为其预设的“明确战胜GeForce GTX 770”的任务。Radeon R9-290的性能及分级方面表现均相当合适,它能否成为一款成功的产品,已经不单纯是性能一方面所能决定的了。
Radeon R9-290特性总览
次级旗舰一直都是玩家们更为关注的产品,它的综合性能表现通常都可以接近于单芯旗舰的九成,而功耗、售价以及性价比等其他使用性和可购买性因素要明显优于旗舰。以最终表现来看,Radeon R9-290切实的提供了比Radeon R9-290X更好的上述指标。尽管高热和高能耗问题依旧难以忽视,但相对而言,Radeon R9-290的情况还是要好上许多的。
4K Ultra HD分辨率是未来的标准
未来的游戏世界终将属于4K分辨率,这一点是毋庸置疑的,凭借极为庞大的后端所带来的更直接的“图形能力”,Radeon R9-290应该会在该领域交上了一份令人满意的答卷。它并不是最快的单芯显卡,但对于现阶段的大部分支持4K分辨率的游戏而言,Radeon R9-290无疑是颇具性价比的理想选择之一。
Hawaii,well done
所以对于这样Radeon R9-290而言,面前的最大的问题依旧来自AMD自身。如何对这款次级旗舰进行推广,同时尽快开放非公版设计并进一步刺激市场需求,这都是AMD目前的当务之急。在此基础上,驱动层面的完善同样迫在眉睫,在去除bug并进一步释放性能之后,Radeon R9-290的可购买性将会变得更高。
最后,还是那句老话——爱不是说出来的,做键盘卡神对AMD没有任何帮助。如果您真的希望AMD的明天会更好,就请抬起键盘上的双手拥抱Radeon R9-290/290X吧。
作为Hawaii的次顶级单芯显卡——Radeon R9 290终于在今天亮相,其性能如何、功耗如何、规格如何,本文首测将会为您逐一解读。无论你是A饭还是N饭,不妨看看“它”今天的表现吧。
Copyright © 2022 日本世界杯_林高远世界杯 - edenyn.com All Rights Reserved.