在嵌入式系统中,推理可以在各种片上处理单元上执行,如中央处理单元(CPU),GPU,数字讯号处理器,FPGA逻辑,专用加速器或这些选项的任意组合。机器学习推理功能通常报告为每秒兆(兆卡,千兆或万亿)操作(MOPS,GOPS或TOPS)。
选择嵌入式处理器以在边缘执行机器学习推理
如今有多种选择,可能很难选择合适的装置或装置组合来进行推理。GPU在神经网络模型训练方面的成功可能导致人们误以为GPU也是执行推理的最佳选择。存在将给定装置的效能与可以执行许多TOPS的GPU进行比较的趋势。但是,TOPS可能不是您应该考虑的唯一引数。
首先,引用的TOPS数字是理论上的。对于许多装置,内存访问和资料总线基础设施无法扩充套件到核心或子系统处理功能;因此,在系统上实现的实际吞吐量可以远低于理论上引用的吞吐量。将理论上可实现的TOPS视为比较的唯一引数并不是一个好方法。可实现的吞吐量(可低至理论计算效能的20%)是更相关的度量。某些装置可能在不同的网络模型中表现不佳,而其他装置可能具有吞吐量作为分辨率,批量大小等的函式。批处理可能适用于云环境或培训,但许多嵌入式应用程序具有不允许的延迟限制批量输入框架。比较TOPS时,
并非所有机器学习模型都需要按几个TOPS的顺序进行处理。许多应用程序可以在MOPS或GOPS的效能预算内解决。了解应用程序的效能,延迟和准确性需求是关键的第一步。
用于基于视觉的物件分类任务的流行卷积神经网络(CNN)模型,如GoogLeNet ,ResNet,ResNext和DenseNet ,被设计用于桌面或云。在嵌入式处理器上原样使用它们可能需要大量的GOPS和 TOPS,这反过来会增加系统成本和功率要求。随着时间的推移,机器学习网络模型技术已发展为嵌入式处理器友好型。诸如高效网络配置,修剪,稀疏性和定点量化等技术已经证明可以显著降低效能要求(数量级),对精度的影响可以忽略不计。
其他需要考虑的因素包括系统整合,器件特性和器件的长期可用性。要降低总体成本,请寻找整合应用程序所需外围装置和界面的装置。例如,如果您的应用程序是基于机器视觉的智慧工厂的工业应用程序,必须通过工业以太网协议或其他协议进行通讯,则整合的片上系统可能是最有效的解决方案。
最后但同样重要的是,还应该考虑软件开发成本。能够提供成熟软件开发套件以及良好工程支援的供应商可以帮助降低风险,降低开发成本并实现可以按时交付的更优质产品。