分享

SoC功能仿真验证技术分享

 毕杰lb7q1kq7pr 2020-12-15

来源:EETOP 论坛   作者:lshj98115

原帖:http://bbs./thread-669902-1-1.html

这篇文章算是《我对验证的一些理解》http://bbs./thread-318775-1-1.html

的一个续篇.

SoC基本仿真环境介绍

我在论坛上写过一个。http://bbs./thread-442797-1-1.html
《如何搭建SoC项目的基本Testbench(我的流程)》,这里挑重要的和有改变的地方说一下。

假设这个SoC有CPU系统、内存控制器、总线拓扑、PAD、Clockreset和一些逻辑功能模块。

1. 仿真环境中有嵌入式软件(firmware)

这里包括两部分,一是初始化的bootloader(一般是固化在rom或者存放在外部的flash里),一是boot起来以后放在外部易失性存储介质上的应用层面的程序。

2. 使用指令集模拟器(ISS)来代替CPU-IP.  

有开源的也有不开源免费的ARM多款处理器IP的ISS.  考虑到ISS本身并不真实,如果不是为了验证bootrom代码的话,个人建议找一个开源的就可以了。 ISS可以编译成.so的库文件,这样在仿真的时候就不用编译整套ISS的C代码了(需要设置LD_LIBRARY_PATH,告诉仿真器仿真的时候去哪里找;编译过程中需要告诉链接库地址和库名称)。

ISS需要一个配置文件来告诉它CPU的地址访问空间,像程序区、堆栈区是ISS管理的空间(假设叫memory空间),像DUT的内存地址以及DUT的寄存器空间就是DUT管理的空间(假设叫IO空间),ISS要能看到所有的地址空间,并且根据地址来判断是memory空间还是IO空间来做不同的操作。

3. 共享空间  CPU(ISS)和Testbench交互的时候可以指定一块地址空间(比如0x3000_0000 ~ 0x3100_0000),这块空间就是testbench中的一个数组。 比如要实现对寄存器的随机配置,由于ISS的C程序不方便做约束随机,可以在Testbench组件中把约束随机产生好的数值写入到这块共享空间中,然后让ISS的C读出共享空间的数值再配到寄存器中。

4.  Define文件的维护   

SoC项目中Testbench的一个define可能同时在汇编程序、嵌入式C程序、Cmodel的C程序、Testbench的SV代码都要使用。 同时维护多个类似的define文件肯定容易出错,所以只维护一个,其他的由脚本程序自动产生。

5.  内存控制器模块(DDRC)的替换    

DDRC是系统中最主要BUS-Slaver,通常需要初始化过程(也有的ddrc不需要),还通常需要DDR-PHY的模型,这些都比较影响仿真速度。而且在验证功能模块的时候,使用DDRC也不容易模拟带宽不同变化的场景。因此验证的时候可以考虑用一个BUS-Slaver的BFM来代替DDRC.

6. 打印的实现
在SoC环境的Testcase的嵌入式C语言程序中没有标准的stdio,所以要实现printf. printf是“不定参数个数的函数”,利用“参数从右向左压栈,最开始的参数在最接近栈顶的位置,字符串最后一个字符是\0”来实现printf.  在C端只需要把第一个参数的地址(肯定不是0)传到共享空间指定位置,在SVTB中获取到地址以后按照%和参数地址来实现(SV端的实现和C语言里printf的实现很类似),需要注意的是1)C端程序要保证参数地址及时写入到共享空间中,不要停在cache或者传输太长;2)使用ISS要打印的信息存在memory空间里,要能让SV端看到memory空间。当使用多核CPU-RTL的时候,注意不同core的打印控制(可以为每个core分配一个共享的空间,在print函数中根据不同的core-id来执行不同的操作)。

malloc等函数的实现也可以利用共享空间来实现。

7. 多个模块的协同验证
在系统级下经常要跑系统级case来模拟整个系统一起工作起来的场景(一般该case也适用于power分析)。这种case可能要花比较大的精力在Testcase的构造上,如果有硬件仿真加速器还好,如果只能在纯粹的仿真环境下做的话,尽量做简化处理。

8. 单一case流程
编译dut和testbenchà编译firmwareà开始仿真(在合适的时机loadfirmware和产生随机控制数据写入到共享空间。如果要把firmware load到ddr model中,并且DDRC初始化流程会做data-training这种写数据的操作,那要保证初始化的数据不要被冲掉)

模块级验证相对于系统(子系统)级仿真环境的优势:

1)仿真速度快

2)随机可控性好

3)更容易做Error-Injection

4)更容易做开关切换和模式切换

仿真工具(2010年以后的版本)都支持模块级和系统级的覆盖率合并,可以加速收敛。

需要注意的是:虽然模块级环境理论上可以覆盖所有的系统级环境里的情况,但是在有限的人力和时间资源的情况下,很可能达不到100%的覆盖。举个例子: 视频外同步的dataenable信号变化情况过多,以至于random不到实际系统中可能出现的情况。 总之:关键是模块级环境有可能没有覆盖到实际中可能出现的情况。

模块级环境基础结构

模块级基础环境中除了有验证组件(monitor driver scoreboard等),还有一条总线连接Master和Slave、CPU-Model控制DUT. 注意:这里所说的模块级环境里的DUT是一个完整的模块,不考虑一个模块内部的子模块.

假定DUT是一个总线的Master设备,会发起访存操作。CPU-Model负责配置寄存器和一些访存,模块级环境为了简化,让CPU-Model不用通过总线而是直接访问Bus-Slaver的空间。

模块级环境Testcase在系统级上的重用

在人员和时间资源有限的情况,要保证模块级代码在系统级上的重用。一般来说Testbench组件(Driver Monitor Model Scoreboard等)重用比较简单,比较麻烦的是testcase在SoC系统级(CPU上的C程序)环境下的重用比较麻烦。Testcase构建是由TB架构中CPU-Model的实现方法决定的。下面两种我主要用的方案Testcase都是C的.

方案一:

使用ISS实现。与SoC基本仿真环境比较一致。

方案二:

使用DPI实现。CPU-Model是一个SVmodel,实现寄存器访问和内存地址空间访问的task,比较复杂的是对中断的模拟。可以使用sv fine-grain-process(process::self())来实现main-taskirq-task,模拟“CPU进入中断以后挂起主程序,执行完中断以后返回主程序”(main_task.suspend(); ….; main_task.resume();)的行为。使用DPI来把底层硬件接口的SV-Task传递给C程序。

     DPI实现的方案中要注意底层硬件接口的代码,以及C代码中直接访问的代码(例如指向DUT内存的指针的操作),尤其是IP-Vendor提供的参考代码里很可能有类似代码。比如,usb ethernet的软硬件交互的协议栈放在内存中,软件代码中一般会维护一个数据结构,然后指针指向数据结构地址操作。dpi环境下这样的代码就没法直接用了(指针的操作就不行了,得换成硬件底层代码实现)。这样模块的firmware代码可能是现成的,仿真应该尽量复用。简单的方案就直接放弃模块级环境,上系统级环境里验证,或者用iss。iss环境下,firmware代码可能也要修改,比如上述的数据结构地址就要注意分配到dut内存地址上去(比如一个大的struct的赋值操作,先malloc出一块空间,然后向这个空间填数。只要malloc到dut内存地址上就可以了)。

其他方案:

         Testcase不用C直接使用SV实现;或者把CPU-Model换成真实的CPU-IP,带上boot-rom和boot-ram。

架构评估

个人首推还是硬件加速器,需要注意的是架构评估最好保证频率的比例关系(访存模块的总线访问频率、总线拓扑中各组件频率、内存控制器和内存工作频率),个人感觉可能Palladium和Veloce这种方案的硬件加速器更加适合。

如果采用仿真的方法做评估的话,需要注意:

1)pattern的真实性。
现成的模块RTL虽然可以反映真实的访存行为和latency的容忍度,但是构建环境偏复杂,仿真速度偏慢,通常还需要有初始化流程才能工作。个人建议构造BFM模拟访存行为:BFM可以吃配置文件,从而模拟比较真实的场景。

2)基础架构的自动集成。
稍微复杂一点的SoC架构中,总线拓扑的集成可能就很复杂了(统一的组件不太方便用emacs自动集成的功能来做,而且一些特殊信号位宽的匹配手动做起来很容易出错)。多年前就有自动化的工具来实现这个集成。但是商业化的工具虽然提供了很多的功能,但是未必能直接满足个体项目的需求,建议考虑开发自动集成的工具。
目前的low-powerflow里已经不用在架构集成的RTL中写入多少额外的代码了,简化了自动集成的难度。

架构评估环境里还需要有内存控制器和总线架构模块的performance-monitor,来统计吞吐量、内存控制器效率、功能模块访存行为的latency等,根据吞吐量来看架构评估环境是否和期望的访存数据量比较一致,在这个前提下看内存控制器的效率达到了多少,以及系统中哪个模块会出现不合理的比较大的latency(导致该模块可能设计的时候需要加大fifo深度)。通过调整内存控制器和总线拓扑模块的优先级策略、时钟频率或者增减总线拓扑组件以及Master/Slave口的数量来做不同的仿真。

VIP的使用

通常我们对复杂的标准接口协议的数通模块采用vip做bfm来验证。

vip的好处是不用特别开发bfm,有完整的tb组件,有的文档中有比较完善的测试计划和实例,随机性和error-injection完备。坏处是代码不可见,遇到问题容易抓瞎;vip作为工具安装使用可能挑OS和仿真器;EDA vendor本地support人员不足等问题,通常VIP跑的速度比较慢。

能力和资源允许的情况下可以自己开发bfm.一种比较快的方案是reuse靠谱的rtl ip。比如我们要验证usbhost,那就找一个usb device或者uotg的rtl ip做bfm.这种方法的优势:BFM代码质量比较高,debug可见性高,将来在硬件加速器上可以更好的移植(有的可以不用phy,数字接口直接连)。劣势:开发代码量也不小,有的phy模型可能是个问题(比如一些单向数据传输的,Master端是并行数据转LVDS,Slave端是LVDS转并行数据,这样的PHY model可能需要另外开发),rtl通常需要初始化过程,随机性和error-injection不够友好。

我觉得如果DUT是内部开发的话,因为代码质量可能不够,用商用的vip更合适。如果DUT是买的已经silicon-verification的IP的话,我觉得自己开发的BFM就够了。

Coverage-Driven 和Assertion-Based

个人认为代码覆盖率是最重要的,是一定要统计和仔细的检查的。

功能覆盖率(包括assertion的覆盖率)应该是Testplan的反映,我觉得只是提供对Testplan覆盖的数据统计,Testplan本身可能是不完备的,所以功能覆盖率的100%并不能代表验证充分了。

Assertion对于一些不太复杂的协议时序验证还是比较适合的,但是感觉最近几年EDA公司都不太在assertion上投入资源了。我觉得对于一个大模块内部的子模块,assertion是非常适合的,可以针对子模块的接口具体的做assertion的描述和验证。

仿真层面的加速

最快的加速技术肯定是硬件仿真加速器。

在“SoC基本仿真环境介绍”中的CPU和DDRC的替换都有加速仿真的功能。除此之外还有一些我在用的加速方法:

1)系统级仿真环境中把不需要的模块dummy掉。 ----- 需要两个脚本程序,一个是自动产生dummy文件,一个是自动把dummy文件替换掉原有的RTL.

2)缩短SoC上电启动仿真时间。---- 通常是一个状态机根据若干个counter的技术来实现状态跳转。方法是更改counter的初始值或者跳转需要的数值,RTL级比较容易实现,门级仿真找信号比较麻烦,最好提前和flow的同事沟通好,把信号名保持住。

3)有些DUT里的IP比较耗仿真资源,可以考虑用简化的model代替。比如PLL、DCM以及某些PHY-Model.

4)某些RTL代码的写法可能很耗仿真资源。 比如在clock的每个上升沿当reset有效的时候把一个比较大的二维数组附初始值。 这种代码最好加ifdefelse endif来改写成Initial-block.

5)减少DPI过于频繁的交互

6)谨慎使用separate-compilepartition-compile等技术,也许带来负面效果。

门级仿真

功能仿真中一般有如下几类门级仿真:

1)综合后网表仿真

2)DFT后网表仿真

3)PR后反标SDF的网表仿真

4)FPGA综合后网表仿真

5)Gtech网表的仿真

综合后和DFT后的网表比较类似,一般跑DFT以后的就可以了。除PR后的网表要反标SDF以外,其他的都是跑0delay的门级仿真。一般额外做几个处理:

1)给std-lib cell库文件中给时序逻辑(dff等)加上clk2q的delay

2)保证SRAM model的输出端在不工作的时候不要输出X.

3)门级网表中如果有不带reset端的dff,一般要找出来做$deposit处理(找的方法可以请flow的同事拿对应的网表出一版sdf,然后parser sdf文件就可以得到对应instance里的dff)。

4)反标SDF的门级仿真如果checktiming的话,要注意把2dff等跨时钟域的逻辑的timingcheck去掉。

FPGA综合后的网表仿真一般不用做,但是当FPGA timing报告、FPGA功能仿真、CDC和Lint-check都没有问题,怀疑FPGA综合有问题的时候值得做一下。我在做FPGA综合后网表仿真中发现过几个问题: 1)Xilinx-V7默认把RTL中复杂的case语句用blockram实现,结果实现的时候时序差了一拍 2)FPGA把RTL里的一些运算直接用内部的DSP来实现,结果DSP的功能综合错误。 FPGA综合网表的信号名太乱,Testbench如果拉了一些内部信号进行观测或者force的话,很难编译通过。

Gtech网表的仿真很少需要做,如果FPGA上跑Gtech网表来代替RTL的话,需要注意FPGA版本Gtech单元的行为描述要保证和Asic的一致,否则容易有“坑”.

PR后门级仿真重点是出比较准确的IR-Drop和Power数据,以及保证时序约束的完整和正确性,建议只跑典型的case就可以了。

仿真验证自动化

举例一些Testbench的自动检查机制以外的自动化技术(很多是用crontab自动执行)。

1)每天自动checkout出一份代码做mini-regression,并且把结果自动发email通知给项目组。

2)每隔几个小时一旦检查到有新tag就自动update到新tag上做mini-regression并自动发email

3)每天自动把所有checkin的代码列出来并自动发email

4)每天自动把未解决的问题总结并发邮件(bug-zilla、issue-tracker、Jira等bug-tracking系统有的自带这个功能,有的可能没有需要自己实现)

5)自动代码备份(有的代码可能还在开发过程中,所以不想checkin到代码库里去,如果MIS没有针对这类代码做自动备份,可能需要一个自动备份的程序,)

6)除了自动比对环境以外,还要有一个parse 编译和仿真log的程序在regression的时候调用。

如果某个功能上没有自动检查机制,也要尽量想办法减少人工比对的工作量。例如,有一个图像算法模块的c-code找不到了,但是RTL是golden的,跑实际图形pattern一幅图一幅图看会比较耗时间,可以把regression中产生的图像打包到一个网页中,然后用浏览器去看。

脚本语言是仿真工作中非常重要的一环。 我们一般会用到shell\perl\tcl\python等脚本语言,建议在学习脚本语言期间,强迫自己遇到问题使用正在学的语言来实现。

验证项目管理

http://bbs./thread-581216-1-1.html  《多媒体类SoC项目Verification Project Leader工作内容介绍(讨论)》
我在这个帖子里列的比较详细了,VerificationEngineer的工作基本上是Verification Project Leader的子集。

帖子里是按照项目开始前的准备à项目启动但未提供第一版integration代码à0.5版本à0.75版本à0.9版本à1.0版本àTO前到TO后的项目开发时间来写的。我在这里列一下帖子里几个没有提到的内容。

Leader要注意把握验证流程,上FPGA验证前除了仿真和检查FPGA时序以外,还要做CDC和Lint等静态验证检查。

Leader及时给项目组内新同事培训工作环境基本技能,避免组内同事出现因为工作环境影响工作效率(比如不同的工具对机器的要求侧重点不同,有的要求cache大,有的要求memory大,可能要综合考虑 cache\memory\cpu-core-num\cpu-frequency等因素。如果MIS没有按照机器性能来进行LSF计算资源划分的话,使用LSF预先配置的分配策略可能会把任务提交到不合适的机器上.)

注意避免验证工程师过度依赖模块级环境。比如FPGA上报了问题,模块级上复现不出来就认为没有功能问题了。

Leader一定要及时总结所有仿真遗漏的bug,开发阶段通常是设计工程师项目后期模块级环境跑仿真暴露以及FPGA上发现的bug.  有的bug可能是由于FPGA在仿真验证过之前就开始导致遗漏的,对于的确是验证工程师遗漏的bug要特别关注。

一般Power数据是来源于门级仿真的VCD或者Saif文件,随着设计越来越大,有可能导致VCD文件过大,这种情况下及时与跑power分析的同事沟通,看有没有合适的手段解决。有的硬件加速器可以内部分析哪段时间翻转剧烈,可以根据这个信息来dump vcd.注意一点:当要dump的信号特别多的时候,其实dump vcd和dump fsdb这种压缩格式的文件大小是差不多的(大量的存储用来构建信号名的表了),这种情况下直接dump vcd就可以了,还可以避免引入dump波形的PLI和后面的格式转换工作。

理论上说验证是做不完的,有所为有所不为。leader不能把事情大包大揽,有些事情在资源有限的情况下要推出去。

及时总结记录和分析

重用程度高的项目很容易犯经验错误,千万谨慎。改动的地方加强review.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多