(原标题:一颗“神奇”的芯片)
淌若您但愿不错常常碰头,接待标星保藏哦~
来源:内容编译自chipsandcheese,谢谢。
最近,以色列芯片独角兽 NextSilicon 推出了一款新式超等狡计机芯片 Maverick-2,定位为 Nvidia 同类家具的径直竞争敌手。咫尺,唯有少数几家公司涉足该范围,而 NextSilicon 是其中的一家着手初创公司。据 Calcalist 了解,该公司的新芯片已得到数千万好意思元的订单。
据 NextSilicon 先容,Maverick-2 既不是 FPGA,也不是 GPU,而是不同的东西,是一款智能狡计加快器 (ICA),引入了智能软件界说的硬件加快,可提供及时恰当性。该时期旨在为 HPC、AI 和矢量数据库应用提供超卓的性能和遵循。
据报说念,Maverick-2 再行界说了加快器架构,突破了基于 80 年前的冯·诺依曼架构的传统固定 GPU 联想的放胆。它使用先进的遥测时期和 NextSilicon 的专利算法,证据应用门径的独到需务及时动态编削加快。这种恰当性可使组织完结比传统 GPU 性能卓越 4 倍以上的每瓦性能和比高端 CPU 性能卓越 20 倍以上的每瓦性能,同期将运营资本评述一半以上。
Maverick-2 ICA 旨在专注于 HPC 和 AI 环境中大部分时分运行的要津代码和责任过程。其自优化架构可完结即时、可推广的性能更正。这是通过创建针对每个应用门径的性能需求量身定制的软件界说处理器中枢来完结的,然后在加快器硬件上实践。在应用门径运行时,遥测数据会被输入到 NextSilicon 的智能算法中,以及时继续自我优化性能、功耗和期骗率。终端是,对于条目最苛刻的 HPC 应用门径,其性能在范围上是高效的,同期功耗比传统 GPU 低 50-80%。
Intersect360 Research 高瓜分析师 Steve Conway 示意:“传统的 CPU 和 GPU 架构频繁受到高延长管说念和有限的可推广性的放胆。领会,咱们需要减少 HPC 和 AI 基础设施中的动力花费和无须要的狡计。NextSilicon 通过 Maverick-2 治理了这些进犯问题,这是一种专为倨傲 HPC 和 AI 的独到需求而构建的新式架构。Maverick-2 旨在讲理接受和从传统架构迁徙的报复。”
多年来,替代加快器一直试图挑战传统 GPU 和 CPU 的主导地位,但它们频频难以克服应用门径移植的复杂性和供应商特定框架,从而形成锁定。NextSilicon 的 Maverick-2 ICA 是第一个通过功能苍劲、用户友好的软件套件突破这些报复的家具。它原生扶助 C/C++、FORTRAN、OpenMP 和 Kokkos 等流行言语,允许许多应用门径无需修改即可在 Maverick-2 上运行。这种软件兼容性和易用性从简了数月的开发责任量,从而镌汰了科学和瞻念察的时分。NextSilicon 奋勉于于为客户应用门径提供全面扶助,并计议行将集成 CUDA、HIP/ROCm 和着手的 AI 框架。
Maverick-2 不仅治理了现在 HPC 交易和研究狡计挑战,还融入了 NextSilicon 独到的常识产权,以移交继续发展和改日的责任负载。其智能天的确架构旨在纵容恰当交融 HPC-AI 责任负载、矢量数据库应用、AI 模子的突破以及新兴的代理和生成 AI 应用的新用例。
Penguin Solutions 首席时期官 Phil Pokorny 示意:“咱们很烦躁扶助 Maverick-2 智能狡计加快器的推出,以过火鼓励 HPC 阛阓性能和遵循达到新水平的后劲。”“在 Penguin,咱们擅长将前沿理念回荡为恶果——速率更快,范围更大,使咱们的客户未必移交最苛刻的责任负载。Maverick-2 的智能软件界说要领补充了咱们提供的庸碌时期,为组织提供了优化其基础设施并在 HPC 和 AI 方面取得突破性恶果的苍劲遴选。跟着应用门径复杂性的增多,像 Maverick-2 这么的改进为咱们的客户开辟了新的可能性,以加快科学和交易跳跃。”
NextSilicon 独创东说念主兼首席实践官 Elad Raz 示意:“我很烦躁晓示推出 Maverick-2 智能狡计加快器,这是狡计范围的一项突破性改进。Maverick-2 代表了始创的治理决议,它无缝集结了先进的软件和硬件,以优化辞天下上最大的高性能狡计系统上运行的最复杂的科学代码。跟着咱们对更快、更高效的应用门径的需求继续增长,Maverick-2 开启了当年被合计不可能完结的可能性。我要向咱们的客户和职工示意最长远的感谢,感谢他们刚毅不移的扶助和承诺。咱们对改日令东说念主难以置信的跳跃感到愉快。”
Maverick-2 ICA 咫尺正在向数十家客户发货,并将于 2025 年头开动批量发货,以倨傲大批积压订单。NextSilicon 扶助各式组织,从好意思国动力部到着手的学术研究机构,以及金融业绩、动力、制造业和生命科学垂直范围的交易客户。现在不错通过勾通伙伴 Penguin Solutions 和 Dell Technologies 为新客户提供早期接受者计议。
最近,chipsandcheese采访了这家厂商,让咱们看一下,一窥背后的玄机。
George Cozma:请谈谈 NextSilicon,以及为什么您遴选 HPC,因为 AI 如今风靡一时。
Elad Raz:是以咱们是下一代狡计,从加快狡计部分开动。咱们领有独到的架构,不错运行任何大范围并行狡计。咱们决定对准超等狡计行业,因为这是一个开阔的阛阓,亦然一个业绩不及的阛阓。超等狡计是一个 500 亿好意思元的阛阓,其中包括存储、互连和总共基础设施。淌若你只狡计销售的狡计芯片、CPU、GPU 和其他加快器的数目,每年就有 200 亿好意思元。是以这是一个开阔的阛阓,你不错列出数百个 AI 专用的加快器和 GPU,是以我合计看成一个需要筹集数亿好意思元的东说念主,最佳先展示收入,我合计 HPC 是一个很大的阛阓。是以咱们决定从 HPC 行业开动。
George Cozma:太棒了。说到你们的新芯片 Maverick 2,它有两个 100 千兆以太网端口。咱们看到许多对于 400 千兆和行将推出的 800 千兆的新闻头条;100 千兆似乎未几。为什么呢?
Elad Raz:是以你需要了解超等狡计的责任旨趣,与机器学习硬件芯片无关。因为在 AI 芯片中,HBM 中的快速内存数目有限,它们位于芯片的边际。而且 HBM 的容量有限。你不错在一个芯片上放弃 2 TB 的超高速内存。现在 Maverick 2 有 192 GB。有些芯片不错达到 288 GB,这个容量很大。但对于 3500 亿个参数,举例,假定 FP16,你需要 700 GB。是以你不错把通盘分量放在一个芯片上。你需要几个。然后它们需要在缩减过程中相互通讯。是以互连速率极端快。
我之前的公司被 Mellanox 收购了。是以我一世中的大部分时分王人在作念互连。超等狡计、Infiniband、以太网、Infiniband 上的 RDMA、RoCE、交融以太网上的 RDMA。这极端难。是以你需要接洽家具的情势不是,嘿,你有一个芯片和一个互连治理决议。每个东说念主王人会使用你的基于以太网的互连,并开动在其上作念 RDMA。这不会发生。但它将业绩于金融行业。是以在金融范围,你有高频往来、风险看守,优化点是延长而不是费解量。咱们不需要 800 千兆。咱们需要的是让数据包极端快地参加处理器中枢并将其发送出去。是以到咫尺为止,我所说的一切王人是怎样冉冉训诫一家公司。去 HPC 公司,创造收入,然后转向其他垂直行业。这亦然咱们对互连的看法。
George Cozma:那么说到芯片的互连供电,我向你保证,我会期骗这个时期取得一些阐发,你合计这个芯片的 PCIe 总线带宽是几许?
Elad Raz:是的。PCIe 是有限的。PCIe Gen 5 有 16 个通说念,速率为每秒 64 GB。这远远不及以输入和输出数据。PCIe Gen 6 的速率将是它的两倍。而且有 112 Gbps 通说念,速率不是每秒千兆位。是的,你不错达到每秒 256 GB,但需要一些支拨。再说一次,你的 Apple M1 有 500 GB。M1 有 400 GB。现在有了 M4,它高潮到每秒 500 多 GB。每秒 550 GB。是以你的条记本电脑比 PCIe 领有更多的内存带宽。因此,加快狡计的筹算是划单干作负载,一些狡计将在主机上进行,腹地化在主机内存中,而大多数时分你想留在征战上,在芯片上。好的。是以很领会,你想把最新和最佳的假定从 CPU 端扶助,CXL,PCIe。但咱们的架构不受 PCE 的欺压,因为咱们有这种智能算法,不错找出什么是进犯的,并将其放在芯片上。现在,一朝它在芯片上定位,你就会留在芯片上。
George Cozma:说到芯片,从 HBM 到芯片的带宽高达每秒 6.4 TB。您究竟怎样使用总共这些带宽?那么这些带宽究竟能完结什么呢?
Elad Raz:虽然。也曾有过在 CPU 上添加 HBM(而不是 DDR)的实验。用户很快证据到他们无法使 HBM 带宽饱和,因为淌若你仔细想想,假定 CPU 不错每个时钟周期向内存发出加载或复原号召,何况你一经对总共内容进行了矢量化,何况得到了 512 位,那么也许你不错使 HBM 饱和,对吧?频繁,CPU 正在进行狡计,你会丢失未射中数据。因此,这就像 64、96 个内核在 HBM 上并行责任,每个 1 到 16 个时钟周期王人如斯。你无法为它们提供最新的 HBM,对吧?咱们有不同的架构。它不是处理器内核。它是硬件加快器,不错发出这些宽内存块并向 HBM 提供数据。
George Cozma:那么说到您的架构,从内存系统来看,这是一个确定或诡辩的问题,您的 SRAM 是否散布在总共不同的中枢之间?
Elad Raz:是的。
George Cozma:因为它看起来便是这个样子 指着墙上的一张die像片。
Elad Raz:是的,那些是 SRAM。
George Cozma:是以淌若你有这个 SRAM,何况它正在转移总共这些数据,因为它是一个空间架构,那么 NOC 是什么,片上麇集是什么,它需要几许带宽来转移总共这些数据,比如说淌若这个中枢 指向芯片左上象限的处理器单位 需要看望该内存通说念 指向芯片右下角的 HBM PHY?
Elad Raz:是以咱们称之为——请包涵我使用像垃圾身分这么的言语,因为你不但愿中枢的一侧与另一侧通讯。你想让一切王人保抓腹地化。淌若你看到这里,那些 NOC 樊篱,它们实践上是两者之间的樊篱。你会受到处分,导致这些瓷砖相互斗争。好的。是以有一个处分。
而耗费是以延长而不是费解量来臆测的。咱们联想了一个 NOC,您不错得到完满的费解量。但即便如斯,您也不想四处走动。是的,我虽然会完结。现在大多数专科架构王人运行范围特定言语,对吧?举例,您需要为 AMD 编写 ROCm 或为 Nvidia 编写 CUDA。而 AI 初创公司,每个王人有我方的言语,这很好。您不错在这些加快器中看到的事情之一便是内存的责任情势。您不可使用 C++ 或全时架构的原因是它不是缓存一致的。好吗?因此,在言语里面,有一个分享内存的见识,这是 CUDA 中的称号。在 LLVM 中,它是地址空间,地址空间 3,也便是说,这是一个腹地化内存。处理器代码,与之对话。淌若您想看望另一个,您需要实践 DMA 并转移数据。领会咱们有这个功能,因为咱们不错运行 CUDA、ROCm 和其他。然而淌若你运行 C++ 代码会发生什么?
智能狡计机架构的终末小数是,你不错在运行时优化这些功能并腹地化数据,这么这些数据流图中的每一个王人不错相互通讯,何况数据将保抓腹地化。是的,淌若你偶尔有一个地址号召发送到另一个芯片,那么你就会有延长耗费。但总的来说这并不进犯。
George Cozma:现在,正如您所征询的门径和数据,它们是一种具有空间架构的已知量,仅仅试图将门径装入芯片,从历史上看,这极端逶迤,因为您恒久莫得弥散的 SRAM 来容纳通盘门径。您怎样尝试治理无法容纳通盘门径的问题——因为门径是数据,您无法容纳总共门径,而您要处理数据,您怎样治理这个问题?
Elad Raz:是的。是以咱们有了可能流和不可能流的见识。可能流是大多数时候发生的狡计内核。那些是轮回。轮回不存储在内存中。它们不存储在 SRAM 或 HBM 中。它们不是处理器代码。我这里莫得提示、索要用法和复杂的分支瞻望。它们就像根底莫得分支瞻望器相通。有一个数据流。而且我有放胆——咱们不想参加架构里面。是以现在,咱们仅仅保抓它——我的兴味是,想象一个 FPGA,但就像用于软件的 FPGA,访佛的东西。它的责任情势是——再行竖立正在改变每个狡计图摆布的不同 ALU。然后你像函数图相通在芯片里面蚀刻。然后你在数据处理时索要数据。每个时钟,王人有新数据输入,新数据输出。是以在编译器代码中有一个见识,合并个门径,多个数据(SPMD)。
举例,您照实有一些函数,莫得分享矢量化提示的见识。莫得极端长的提示情景,因为数据流上不错有许多类型。我的兴味是,它仅仅不同云尔。这就像一个想维零乱,因为您需要以不同的情势想考它。它正在旋转狡计架构,并说这是实践大范围并行应用门径的正确要领。咱们未必破解它。
George Cozma:太棒了。那么咱们的终末一个问题,或者说我的终末一个问题是,您最心爱哪种奶酪?
Elad Raz:好吧,我先说说我最气愤的奶酪,那便是意大利乳清干酪。我配头很心爱。有一次她径直把它塞进我嘴里,我不心爱。但我最心爱滋味很臭的奶酪,蓝奶酪。举例,丹麦蓝奶酪便是我最心爱的。
https://chipsandcheese.com/p/nextsilicon-putting-hpc-first
半导体杰作公众号推选
专注半导体范围更多原创内容
心绪巨匠半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或扶助,淌若有任何异议,接待磋议半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3961期内容,接待心绪。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”分享给小伙伴哦