TI ADI DSP 与 ARM Cortex-A 的 FIR FFT 性能对比

TI ADI DSP 与 ARM Cortex-A 的 FIR FFT 性能对比DSP作为计算密集型的芯片,一度是FIR和FFT运算的主力芯片,而TI和ADI两大DSP芯片公司推出的DSP产品也互不相让。可以预见,随着ARM的广泛使用和性能的提高,DSP作为独立的芯片,应用场景会越来越少,也许会慢慢退出历史的舞台;而数字信号处理,会以DSPIP软核或者硬核的形式,出现在各种芯片当中。摩尔定律和制造工艺的发展,推动着芯片行业飞速前进,不进则退。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

        DSP 作为计算密集型的数字信号处理芯片,一度是FIR和FFT运算的主力芯片,而 TI 和 ADI 两大DSP 芯片公司推出的 DSP 产品也互不相让,各占一席之地。

        目前 TI 主流的 DSP 是低功耗的 C674x 系列和高性能的 C66x 系列。C674x 系列最高可以达到 3648 MIPS / 2746 MFLOPS 的性能,而性能最高的 TMS320C6678 具有8个 C66x 核,可以达到 320 GMAC/160 GFLOP @ 1.25GHz 的性能。

        TI 公布的 DSP 与 Cortex-A15 的 ARM 芯片的性能对比:

TI ADI DSP 与 ARM Cortex-A 的 FIR FFT 性能对比

        由上表可以算出,1.5GHz 的 Cortex-A15 ARM 芯片的性能,已经和C674x差不多了。

        目前 ADI 主流的 DSP 是 Sharc 系列,其中的 ADSP-2146x 系列性能达到 2700MFLOPS,与 TI 的 C674x 在 1k 点 复数FFT 的耗时都是 24us,针锋相对,旗鼓相当。

        而 SC58x 的双核 DSP 里的 FFT 硬核加速器,只需要 5.5us 就可以完成了,比 TI 1GHz 的高性能 C66x 的速度都要快。

        ADI 公布的 DSP 性能如下:

 TI ADI DSP 与 ARM Cortex-A 的 FIR FFT 性能对比

        DSPConcepts 对 ARM 核芯片和 ADI 的 DSP 做了测试,结果如下:

TI ADI DSP 与 ARM Cortex-A 的 FIR FFT 性能对比

TI ADI DSP 与 ARM Cortex-A 的 FIR FFT 性能对比        可以看到, Cortex-A15 的每 Cycle 性能虽然不如 Sharc 21489,确也已经超过了 Blackfin,而考虑到芯片的速度,1.5GHz 的 Cortex-A15 芯片的性能,已经超过了 450MHz 的 Sharc 21489。

         而目前的主流ARM芯片也从 armv7(32 位)构架升级到性能更高的 armv8(64 位)构架,而且普遍采用了多核构架,性能更加强大。

        以树莓派为例,树莓派3B+ 的 4 核 Cortex-A53,性能已经达到 5.5GFLOPS;树莓派4 的 4 核 Cortex-A72,性能已经达到 13.8GFLOPS,已经超过 SC58x 的双核 DSP 的 5.4GFLOPS。

        可以预见,随着ARM的广泛使用和性能的提高,DSP作为独立的芯片,应用场景会越来越少,也许会慢慢退出历史的舞台;而数字信号处理,会以 DSP IP 软核或者硬核的形式,出现在各种芯片当中。

        摩尔定律和制造工艺的发展,推动着芯片行业飞速前进,不进则退。

        全志推出的 R329-N4芯片便是很好的例子。该芯片含有双核 ARM Cortex™-A53@1.5GHz,搭载周易TZ1AIPU(最大支持0.25TOPS@600MHz),芯片内集成两颗HIFI4 DSP@400MHz,并且片上集成SIP 256MB DDR3,性能不凡。

        TI 也推出了针对汽车领域 ADAS 应用的芯片,TDA4VM Jacinto™ 7 处理器,性能强劲,直接把自己的 AM5729 拍在沙滩上:             

        • 双核 64 位 Arm® Cortex®-A72 微处理器子系统,性能高达 2.0GHz

        • 六个 Arm® Cortex®-R5F MCU,性能高达 1.0GHz

        • C7x 浮点矢量 DSP,性能高达 1.0GHz、80GFLOPS、256GOPS

        • 深度学习矩阵乘法加速器 (MMA),性能高达8TOPS (8b)(频率为 1.0GHz)

        • 两个 C66x 浮点 DSP,性能高达 1.35GHz、40GFLOPS、160GOPS

        • 3D GPU PowerVR® Rogue 8XE GE8430,性能高达 750MHz、96GFLOPS、6Gpix/s

        回想当年叱咤风云的主角,如今廉颇老矣,令人唏嘘;而ARM,也面临着新的挑战,RISC -V芯片,深度学习芯片,各种 SOC,如雨后春笋,已经遍地开花,性能大大提升。

        怀念那段从 5510,6713,6416,OMAP,Blackfin BF533,到 SharC 21489,6748 的历程,当年需要花钱买的CCS,做的仿真器和板卡,以及写的那本小册子《使用CCS进行DSP编程》。

        沉舟侧畔千帆过,再回首已过二十年。乐见国产芯片,芯芯向荣。

        特收集整理在此,以纪念那段和朋友们一起有DSP芯片陪着走过的慢慢尘封的岁月。

        未来,将是一个崭新的时代!

                                                                                                              老徐,2022年惊蛰

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/181959.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号