深入了解汽车系统级芯片SoC连载之八 gpu是什么的硬件芯片( 四 )


ARM MALI系列GPU
ARM的GPU设计项目最早是由挪威科技大学在90年代末开始的,然后在2001年,这个项目的Mali团队成员脱离研究,成立了一家名为Falanx Microsystems的公司 。起初,Falanx的人员瞄准了PC图形市场,但那是后3DFX时代,包括S3、Rendition、Revolution和Imagination在内的许多公司最终都失败了 。最后,Falanx无法筹集到足够的资金,被迫放弃了PC图形市场 。
在那个“紧急时期”,由于资金有限,PC图形硬件研发成本极高,Falanx最终决定转向移动SoC GPU设计 。因为移动GPU设计更简单,更容易成功 。Falanx的Mali GPU也迎来了他们的第一个客户,美国的Zoran公司,并使用Mali-55作为他们的Approach 5SOC芯片的GPU,LG & # 39在s Viewty这样的热门手机产品中 。即便如此,Falanx并不满足,终于在2006年迎来了他们的“大鱼” 。鉴于SoC市场的不断增长和移动计算的大潮,ARM最终决定收购Falanx,成立自己的GPU部门,与ARM的CPU共同推动整个行业的增长 。ARM作为一家资金雄厚的后起之秀,完全有能力给予Falanx充足的资金和R&D资源来实现梦想 。
Utgard,ARM的第一代微架构 。这一代架构出来的比较早,主要是图形加速IP 。可以追溯到2007年的马里-200 。但最让人惊讶的还是Mali-4xx系列,现在很多电视芯片还在用这个IP 。比如小米的智能电视,而且很多都是Mali-4xx系列 。第二代微建筑Midgard(北欧神话人物:Midgard) 。Midgard这一代GPU开始属于同一个着色器架构,也就是上面提到的顶点着色器和片段着色器已经统一,也就是说同一个着色器计算单元可以处理多个着色器 。当然,它也开始支持通用计算 。尤其是对OpenCL的支持 。第三代微建筑Bifrost(北欧神话中连接天地的彩虹桥) 。第四代微建筑Valhall(北欧神话中的瓦尔哈拉神庙,是战死的勇士死后奥丁的神庙)于2019年第二季度上线 。这个系列是基于超标量的 。
常用高通和ARM MALI GPU参数对比 。

深入了解汽车系统级芯片SoC连载之八 gpu是什么的硬件芯片


资料来源:互联网
ARM MALI-G710
目前ARM最新的GPU是G710,ARM的架构变化频繁 。G710可能是ARM最成功的GPU架构,它采用4 nm制造工艺 。
和英伟达的桌面GPU相比,ARM的架构差别很大 。ARM采用大核设计,一般写成MALI G710 MPX或MCX,X代表核数 。MALI的核心是着色器核心,可以类似于NVIDIA的SM流多处理器 。渲染核心中有一个执行引擎,可以看作是CPU领域的ALU 。
MALIG710渲染内核
深入了解汽车系统级芯片SoC连载之八 gpu是什么的硬件芯片


图片来源:互联网
早期ARM是SIMD设计的,但最近已经成为GPU常用的SIMT 。G710的执行引擎是G77的两倍,有两个执行引擎 。每个执行引擎包含两个集群,执行16位宽的线程,相当于64个alu 。G710支持7-16核设计,即最多1024个alu 。
MALIG710执行引擎
深入了解汽车系统级芯片SoC连载之八 gpu是什么的硬件芯片


图片来源:互联网
G710的执行核心没有具体信息,应该和G77一样是64 warp或者1024线程 。每个处理单元有三个alu:FMA(混合积累加计算)和CVT(转换)是16宽度的,而SFU(特殊函数单元)是4宽度的 。每个FMA每个周期可以做16次运算,运算数据的精度是FP32,换成FP16是32倍,8位整数INT8是64倍 。和NVIDIA的桌面GPU一样,FP16和FP32是分开计算的,也就是说可以同时计算,但是移动MALI不需要这种设计 。Convert单元处理基本整数操作和自然类型转换操作,并充当分支端口 。
Mali-G77渲染内核
深入了解汽车系统级芯片SoC连载之八 gpu是什么的硬件芯片

推荐阅读