一、硬件故事与运行机制 1. 画家与管家协作模型 渲染管线拟人化:CPU(管家)与GPU(画家)分工协作; Drawcall本质:CPU向GPU发送绘制指令的过程; 资源传输瓶颈:颜料(显存数据)需要远距离运输(总线传输)。 二、硬件基础原理 1. 存储器架构 1.1 存储金字塔结构: - 缓存(调色盒):L1/L2高速缓存(1-10MB)。 - 内存(画室):DRAM(4-16GB)。 - 外存(库房):UFS存储(128-512GB)。 - 速度阶梯:寄存器>L1>L2>内存>SSD。 1.2 存储墙问题:存储器速度提升滞后于计算单元。 2. 总线系统 2.1 总线层级: - 系统总线(高速路):PCIe 4.0(16GT/s)。 - 内存总线(国道):LPDDR5(44GB/s)。 - I/O总线(县道):USB3.2(20Gbps)。 2.2 带宽瓶颈:移动端带宽仅为PC的1/10。 2.3 TBDR优化:瓦片渲染减少总线压力。 3. CPU架构 3.1 核心架构: - 大核(3.2GHz)+中核(2.5GHz)+小核(2.0GHz)。 - 指令流水线 3.2 功耗特性 4. GPU架构 4.1 并行架构: - 着色器核心数量。 - 固定功能单元(光栅化/纹理采样)。 4.2 渲染流程: 顶点处理 → 图元装配 → 光栅化 → 像素着色。 4.2 带宽敏感操作:MSAA/透明混合/大分辨率RT。 三、优化方案体系 1. UI优化 1.1 合批策略: - 静态元素合并图集(1024x1024 ASTC6x6)。 - 动态元素使用GPU Instancing。 1.2 层级优化: - 动画元素独立Canvas。 - 节点深度<3层。 纹理压缩: - 公用图集打包。 - 关闭mipmap streaming。 2. 场景优化 2.1 LOD策略: - 视距LOD分级。 - 模型减面。 2.2 剔除优化: - 建筑分块。 - 植被使用GPU Instancing。 2.3 资源复用: - 提高资源复用率。 3. 角色优化 3.1 模型规范: - 顶点信息清理。 - 警惕缩放Overshading。 3.2 动画优化: - 清理无用权重。 - 挂点优化。 4. 特效优化 - 渲染优化 - 统一管理特效组件 - 合并特效贴图和模型 四、总结与实践 1. 学习性能优化的意义 2. 跨专业的学习方法