半导体老兵的独白:用 ASIC 的思路开发 FPGA 应用

这是一个算力不足的年代,这是一个算力重建的年代,破局与重建关乎时代变迁,破局与重建也激发着创新者的斗志。

01、愿算力与你同在:当全世界的电力都用上还不够

"算力"在未来是生产力发展的核心要素,也就是说,谁拥有超越别人的"算力",谁就会拥有更高的生产力和效率,谁也就能在创新上实现真正的突破,成为推动产业和时代进步的原动力。所以"算力 "会和"原力"一样成为人们期望拥有的能力。

5G,AI和AIoT,让所有东西都联网和数字化,使得算力缺口不断扩大,从端侧到云端,数据运算需求呈现指数级增长,都在思考如何打破“算力瓶颈”。也许你会说,可以用CPU和GPU啊?曾经有人算过,不断增长的加速需求全部用GPU来算的话,用上全世界的电力可能也不够,所以光用GPU做加速显然不现实。

在我看来,根据场景不同,将来算力会分布在从云到端的各个环节上。站在这几年非常流行的"上云万能论"的角度来看,有许多场景的需求无法通过云解决。以智能驾驶场景为例,计算结果需要在毫秒级反馈到控制系统,显然云端计算变得不现实。相信FPGA的灵活性可以为更多场景做“算力赋能”。

02、重新定义硬件:为什么要用ASIC的思路做FPGA的应用开发?

这几年,异构计算和硬件加速是非常值得期待的市场。从当下4000多亿美金全球的芯片市场规模来说,FPGA芯片的60多亿不那么大,但随着ABC(AI,Bigdata,Cloud)和5G的推动,从端到云都可能面临"算不过来"的窘境,这对于擅长做加速的FPGA来说市场潜力极大。按照Gartner的预测,到2025年FPGA芯片市场将增长到125亿美金,非常值得期待。

然而,几十年来,FPGA也一直面临ASIC的竞争。通常认为,客户的产品在达到一定体量后,从成本角度会迁移到ASIC。雪湖科技认为,虽然这样的竞争无法避免,但如果能把"Crossover Point (交叉点)"往右边延伸(图1),那就能扩大FPGA应用市场的空间,充分受益于异构计算强大的算力优势。因为性能提升延长了成本切换的时间点,让一部分原本ASIC的市场变成FPGA的市场。即使在云端也是一样,性能的极致优化和提升可以为客户提升TCO(总体拥有成本),剩下大把的成本,可以用来专注于提升云端的服务能力。

图1:FPGA方案和ASIC方案成本比较
(出处:兴业证券《FPGA行业深度报告》)

03、Wide and Deep 加速器:算法懂你,还得懂赚钱

提升算力的关键,首先一定是硬件的提升,FPGA的低延迟及高吞吐相对GPU有绝对的优势,因此越来越多的企业意识到了这一点,已经开始率先使用FPGA来提升算力。

在赛灵思开发者大会XDF 2019上,阿里云的FPGA异构计算负责人张振祥也说 :"在今年优酷的国庆阅兵直播,以及天猫双十一晚会直播,阿里云都采用了 FPGA的转码方案。"

我们了解到,天猫双十一的图片转码也都是用FPGA做的。这里可以看出一个趋势,FPGA还会随着双十一销售额交易量的攀升得到更为广泛的运用。可以预见,FPGA在互联网基础业务领域有很多应用场景。

相较于CPU服务器,基于FPGA加速器打造的这一解决方案,将吞吐量提高了3~5倍,加上功耗更低,其TOC是CPU云的5倍以上。

图2 :FPGA vs CPU基于FPGA的推荐算法性能比较
(出处:赛灵思)

推荐系统是互联网公司运营的核心,内容推荐会影响留存,转化和成交转化;广告推荐会直接影响点击率(CTR - Click-Through-Rate),进而影响广告收入。看到互联网公司对广告投放、内容点击率的痛点,我们开发了基于FPGA的广告推荐加速器。

推荐系统中,点击率至关重要,在云音乐推荐的"今日歌单",抖音上的短视频和购物APP的"猜你喜欢"等场景中,点击值反映的是推荐系统的准确率,他影响着用户是去是留,也决定着互联网企业的广告收益。

为了达成精准的推荐和投放,2016年,谷歌提出了"Wide and Deep"算法模型,现在已经被Facebook、Youtube等国际领先的互联网公司广泛使用。考虑到部署于GPU的成本高,这一算法以往采用CPU来加速,但性能并不理想。在这个背景下,赛灵思针对数据中心广告推荐算法加速推出Wide and Deep算法推荐系统”高性能解决方案。

在完成推荐过程会根据用户信息提取用户自画像和商品属性,输入到模型,再根据相应算子得出最终结果。将结果进行处理和排序后,也就是我们日常可见的推荐界面了。由于不同的用户有不同的个人信息和喜好,经过模型计算也会有不同的结果,也就对应出不同的推荐内容。

另外,考虑到大型推荐系统的上线都是通过云端部署,同时用在线和离线方式更新模型。除了U200加速卡,支持Wide and Deep在阿里云FPGA服务器F3(FPGA:赛灵思VU9P)上的部署应用,用户可以通过镜像文件部署。根据最近的更新数据显示,模型精度损失可控制在2/100000。当模型更新时,通过雪湖科技提供的专有工具可直接载入模型参数,可做到一键式更新模型参数。

目前,互联网公司在算法推荐上的需求持续增长,在让企业看到FPGA的性能预期之外,还通过这些操作上的便利,希望能提供到奉行最小可行性测试的互联网行业最为喜闻乐见的方案,让行业能低成本地拥抱变化,进一步满足人们"听我想听"、"看我想看"、"买我想买"的"懒惰"需求,另一维度上,广告主的能逹到更高的货绩效指标 (KPI),能够提升企业的广告售卖单价,FPGA的价值也就体现了。

要了解Xilinx FPGA产品,请长按以下二维码:

长按二维码

本文转载自:赛灵思
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理。

点击这里,获取更多关于应用和技术的有关信息
点击这里,获取更多工程师博客的有关信息

最新文章