洪锦法

云-边融合的AI推理优化｜

让大模型在云--边--端实现高吞吐、低时延与强安全的统一优化与价值转化

异构计算与边缘AI算法香港 18959707260 Jeffrey_Hong@163.com

Biography

我致力于研究云—边—端一体化的大模型推理优化与工程落地，聚焦模型压缩、异构并行与隐私安全。目前，任 CALAS 算法研究员，曾并在中科院香港创新研究院担任 LLM 应用工程师（智慧医疗方向），主导垂直场景微调与评测体系建设。我获得香港城市大学电子信息工程硕士（优秀毕业生），本科毕业于福州大学。当前研究覆盖跨层压缩（低秩/量化/KV 压缩）、云边协同并行切分、存储协同（SSD 直通、NUMA 优化）与 HE/TEE 等安全推理实践。

相关背景

方向：LLM垂直化微调、模型压缩与异构计算、云-边协同推理、隐私计算
经历：CALAS 算法研究员；中科院香港创新研究院 LLM 应用工程师（智慧医疗）；徐工集团研究院物联网算法工程师（工程机械部）
教育：香港城市大学电子信息工程硕士（优秀毕业生）；福州大学本科
成果：2025 IEIG 世界专利赛银奖；第一作者 EI 1 篇、SCI 3 篇（在投）；US 专利 1 项（在投）；

垂直LLM实证

+30% 准确率
手术知识QA；有害幻觉 -80%

边缘加速收益

5--10× 计算降幅
内存占用 -70%+

系统适配

硬件验收经验
鲲鹏 vs A100 标准化评测

代表工作与可迁移价值

垂直领域LLM微调（手术场景）：LoRA/PEFT + Partial Freezing；百万级 Token 语料与评测基准；QA +30%，幻觉 -80%
工业边缘AI加速与安全：张量分解×量化×KV 压缩；同态加密推理预研；算力成本大幅下降
硬件与系统：鲲鹏/A100 对齐测评与报告，标准化验收与工具链

未来研究方向：AI on Edge vs Cloud

架构协同：建立云-边统一的推理调度框架，按请求特征（上下文长短、时延等级、合规级别）进行分流与动态迁移；边端处理低时延/隐私优先，云端处理长上下文/高吞吐。
模型形态：边缘侧采用蒸馏/量化/低秩的轻量模型与 KV 压缩，云端保持全精度或混精度大模型；通过知识蒸馏与参数对齐保持一致性。
并行与切分：针对硬件画像自适配张量/流水/序列并行；云-边之间支持层/块级切分与 KV 共享，结合批处理与预约执行降低尾时延。
存储协同：权重与 KV 的热-冷分层与 SSD 直通加载；跨设备缓存与预取策略，NUMA/PCIe 拓扑感知。
安全与合规：边端进行 PII 脱敏、同态/TEE 子路径推理；云端进行审计与再评估；端云密钥分离与可追溯日志。
评测基线：构建覆盖 QPS、P50/P99、能耗/成本、精度一致性的多维基准；输出 Pareto 前沿与可复用脚本工具链。

研究兴趣与问题域

跨层压缩：低秩分解 + 4/8-bit 量化 + KV-Cache 压缩，长上下文友好
协同并行与切分：张量/流水/序列并行的自适配切分，基于显存/带宽/IO画像
存储协同推理：权重/KV 热-冷分层，SSD直通加载（PagedAttention 风格）、NUMA 优化
安全与可信：后量子（PQC）同态加密（HE）算子子集，端云密钥分离与可审计日志

感兴趣的工作

搭建云-边协同推理评测流水线，生成吞吐/时延/能耗三维基线与可复现实验脚本
实现 RAG-TS 原型：时序数据库 + 检索增强，联动实时告警与问答
输出标准化部署脚本、技术报告与降本增效分析，支持快速复制到多场景