【高性能运算】-招聘求职信息-拉勾招聘

推荐职位排序方式：默认最新
月薪：
不限
- 不限
- 2k以下
- 2k-5k
- 5k-10k
- 10k-15k
- 15k-25k
- 25k-50k
- 50k以上
工作性质：
不限
- 不限
- 全职
- 兼职
- 实习

高性能集合通信库工程师-网络
[上海·杨浦区] 17:53发布

20k-40k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、核心研发工作： 1）负责集合通信库（CCL）设计、开发与优化，支持多卡/多机场景下的高性能通信； 2）基于RDMA和Scale-up等互联技术，研发高速通信库及相关工具； 3）探索通信与计算的协同优化，设计通信算子与计算算子的融合方案； 2、性能优化与问题解决： 1）分析并优化AI集群中单机内/多机间的集合通信性能（如AllReduce、All2All等），突破软硬件性能瓶颈； 2）解决分布式训练/推理场景中的通信问题，适配复杂应用场景需求； 3）利用Triton等工具开发高性能通信计算融合算子，优化端到端通信延迟； 3、技术协作与生态建设： 1）与训练、推理、自研软硬件等团队协作，优化AI模型通信效率，支撑整体系统性能提升； 2）洞察集合通信技术趋势，推动自研通信库的架构演进与生态适配。职位要求： 1、本科及以上，计算机、电子工程相关专业； 2、扎实的分布式系统知识，熟悉大规模AI集群架构、网络通信原理及RDMA技术； 3、熟悉常见集合通信算法（如Ring、Tree、Halving-Doubling），了解集合通信库（NCCL等）实现原理； 4、具备复杂问题分析能力，能独立完成性能调优与故障排查。
高性能集合通信库工程师-网络
[深圳·南山区] 17:35发布

20k-40k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、核心研发工作： 1）负责集合通信库（CCL）设计、开发与优化，支持多卡/多机场景下的高性能通信； 2）基于RDMA和Scale-up等互联技术，研发高速通信库及相关工具； 3）探索通信与计算的协同优化，设计通信算子与计算算子的融合方案； 2、性能优化与问题解决： 1）分析并优化AI集群中单机内/多机间的集合通信性能（如AllReduce、All2All等），突破软硬件性能瓶颈； 2）解决分布式训练/推理场景中的通信问题，适配复杂应用场景需求； 3）利用Triton等工具开发高性能通信计算融合算子，优化端到端通信延迟； 3、技术协作与生态建设： 1）与训练、推理、自研软硬件等团队协作，优化AI模型通信效率，支撑整体系统性能提升； 2）洞察集合通信技术趋势，推动自研通信库的架构演进与生态适配。职位要求： 1、本科及以上，计算机、电子工程相关专业； 2、扎实的分布式系统知识，熟悉大规模AI集群架构、网络通信原理及RDMA技术； 3、熟悉常见集合通信算法（如Ring、Tree、Halving-Doubling），了解集合通信库（NCCL等）实现原理； 4、具备复杂问题分析能力，能独立完成性能调优与故障排查。
高性能计算工程师
[北京·西城区] 17:04发布

40k-60k·16薪经验3-5年 / 硕士

因诺

金融业 / 不需要融资 / 50-150人

工作职责： 1. 参与公司高性能计算平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现，例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术，致力于GPU或其他异构硬件的高性能系统开发。 4. 开发公司高频策略所需的高性能回测系统。职位要求： 1. 计算机、电子、通信专业，硕士及以上学历。 2. 精通C++语言，具有3年及以上的linux环境下C/C++多线程和多进程开发经验，熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构，了解常见处理器（X86、ARM等）、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验，通过对Linux内核的优化，开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验，能够基于相关GPU框架（Tensorflow、Pytorch）进行性能或通信上的优化，以提升相关系统在海量金融数据（TB级）下的高速传输和计算。 6. 具有优秀的团队沟通和协作能力、责任心强，善于学习，有较强的自我驱动，具有独立分析并解决问题的能力。
高性能计算研发工程师
[北京·海淀区] 17:44发布

30k-50k·14薪经验3-5年 / 硕士

搜狐集团

移动互联网,广告营销 / 上市公司 / 2000人以上

岗位职责： 1、负责推理加速算法的研发和实现，包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等。 2、负责深度学习模型的量化和蒸馏，实现高效的模型压缩和部署，提高模型的运行效率和推理速度。 3、负责LLM/多模态模型的端到端部署，包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等。 4、负责扩散模型的端到端部署和AI绘图的高并发服务流程设计，包括但不限于核心算子/采样器优化、模型优化和压缩、服务流程优化。 5、负责设计和研发AI端到端任务编排体系，提升AI大模型在业务中的应用效率。 6、负责优化计算集群的资源调度和弹性计算策略，提升集群的资源利用率。岗位要求： 1、硕士及以上学历，计算机专业出身。 2、熟悉CPU/GPU架构与工作原理，有深度学习系统研发经验，熟悉CUDA编程并有相关开发经验。 3、具有深度学习推理加速和优化的经验，熟悉常见的加速技术，如剪枝、量化、分布式推理等，并能够根据不同场景和硬件平台进行针对性的优化。 4、熟悉常见的模型量化技术，如低精度量化、动态量化等，并能够进行模型的量化优化。 5、熟悉常见的深度学习框架，如PyTorch、TensorFlow等，并能够根据业务需求进行算法实现和调试。 6、熟悉LLM/多模态相关的算法技术以及推理加速方法。 7、有团队管理经验者优先。 8、具备较强的团队合作和沟通能力，优秀的分析和解决问题能力，对挑战性问题充满激情，自驱有追求，具备较强的攻坚能力。
高性能算法库工程师(工作地点杭州)
[成都·双楠] 2022-11-03

14k-20k 经验在校/应届 / 硕士

之江实验室

智能硬件 / 不需要融资 / 2000人以上

工作地点杭州之江实验室新园区岗位职责： *与芯片设计人员合作，开展高性能算子库的需求分析； * 负责在众核计算芯片上实现各类AI算子库以及基础数学运算库；职责要求: *计算机、数学、物理、微电子、通信、自动化等相关专业 *有实际开发经历，具有较强的程序设计和实现能力，具备良好的计算机体系结构、操作系统方面的理论基础。 * 熟练掌握 C/C++/汇编中的一项或多项；满足以下一种或多种条件者优先（没有下述任何经验的也可投递简历）： 1. 熟悉高性计算能库，如TensorRT、OpenBLAS、MKL、cuDNN等 2. 熟悉MPI/CUDA编程 3.精通linux环境下C++编程
高性能计算算法工程师(工作地点杭州)
[北京·北下关] 2022-11-03

14k-20k 经验在校/应届 / 硕士

之江实验室

智能硬件 / 不需要融资 / 2000人以上

工作地点杭州之江实验室新园区岗位职责： •针对国产高性能计算部件，设计和优化多种类应用场景下的高性能计算算法，如信号处理算法、矩阵算法等 •根据项目需求，完成高性能计算工具和框架的优化；职责要求： •计算机、电子、应用数学等专业硕士及以上学历； •熟悉计算机体系结构、计算机组成原理、操作系统、编译器者优先。 •有代数矩阵运算、信号处理、图像处理算法在不同处理器上移植和调优经验的优先； •有志于从事高性能计算、异构计算者优先。
高性能计算研发工程师
[杭州·西湖区] 2025-03-15

35k-60k 经验3-5年 / 硕士

阿里云

电商,企业服务 / 上市公司 / 2000人以上

岗位职责:（部分匹配即可） 1、针对大模型推理、训练等场景，优化和扩展vLLM、SGLang等框架的核心模块，提升计算效率与资源利用率； 2、能够使用Profiler手段，分析训练瓶颈，使用分布式策略调优、算子优化等手段来提升训练性能； 3、提升分布式推理下模型并行(ModelParalleism)、数据并行(Data Paralelism)等场景下的性能； 4、支撑异构AI芯片上的调度框架设计与优化，提升系统的实时性、吞吐率、算力利用率等指标； 5、针对不同端侧设备的硬件特性（CPU、GPU、NPU 等）进行镜像和训推框架适配，针对特定硬件架构和推理引擎进行性能优化； 6、深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等)，设计并实现高性能算子与算法； 7、探索前沿技术方向(如混合专家模型MoE、强化学习算法等)，推动AI工程化落地的效率提升。岗位要求：（部分满足即可） 1、熟练GPU的高性能计算优化技术，深入理解计算机体系结构，熟悉并行计算优化、访存优化等; 2、熟悉TensorRT-LLM、LMDeploy、vLLM、SGLang等大模型推理框架，有实际性能调优经验(如KV Cache优化、动态批处理、Attention算子定制等)； 3、扎实的高性能计算基础，熟悉并行计算、内存优化、通信优化等技术； 4、至少熟练使用C++/Python/Golang中一种，具备良好的算法设计与代码实现能力； 5、熟悉Pytorch，Deepspeed等主流分布式框架的使用和原理，熟练掌握TensorFlow、PyTorch等深度学习框架； 6、了解深度学习算法基本原理，熟悉深度学习训练框架及其模型文件的解析； 7、了解通信架构原理、有分布式优化和通信优化经历者优先； 8、了解深度学习模型的量化压缩、推理加速等优化技术； 9、了解通信架构原理、有分布式优化和通信优化经历者优先。
2024百度校招--北京-高性能计算研发工程师
[北京·西北旺] 2024-02-28

25k-40k 经验在校/应届 / 本科

百度

工具 / 上市公司 / 2000人以上

职责 -负责深度学习推理引擎的优化工作，主要针对GPU、CPU以及自研语音芯片 -负责深度学习算法在多终端工程优化和落地 -负责深度学习模型训练框架的高性能计算优化工作要求 -精通C/C++编程，编程习惯和功底扎实优秀 -对深度学习算法有一定了解，具备将复杂问题进行数学建模的意识和能力 -对高性能计算\分布式计算\异构计算\编译系统等有了解，有过mpi、gcc、gpu等开发经验加分 -了解多线程加速，DSP相关移植，单指令多数据加速，进程间通信，有过DSP的指令集以及加速方法开发经验的加分； -沟通能力和团队合作意识强，热爱挑战，踏实勤奋
高性能网络协议算法研发工程师
[南京·建邺区] 2023-12-01

12k-24k 经验1-3年 / 本科

基流科技

企业服务,人工智能,通讯电子 / 天使轮 / 50-150人

【岗位职责】 ·参与GPU-RDMA端网协议与算法的设计、开发与调优工作。 ·参与GPU高速网络通信库的设计、开发与卸载加速工作。 ·实现高性能网络的状态监控、配置校验和故障定位。 ·与团队成员协作，进行技术攻关，提升系统可扩展性和稳定性。 ·与芯片厂商合作，开展网络新硬件、新协议和新架构设计。 ·跟踪和研究面向GPU集群的分布式系统优化技术和BDMA网络通信技术【岗位要求】 ·计算机科学、通信工程或相关领域的学士、硕士或博士学位。 ·扎实的编程能力，熟练掌握至少一种编程语言，如C、C＋＋、Golang等。 ·深刻理解高性能网络协议栈、网络处理器体系结构、数据中心网络、分布式系统。 ·精通集合通信、拥塞控制、流量调度、路由查找、网络校验、拓扑设计等。 ·熟悉Linux内核协议栈、DPDK、RoCEv2、NCCL、MPI、UCX等底层驱动和通信接口。
高性能计算工程师
[深圳·大冲] 2023-09-23

30k-60k·14薪经验不限 / 硕士

其域创新

IT技术服务｜咨询,人工智能服务 / 天使轮 / 50-150人

工作职责： 1. 参与公司高性能计算算法平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现，例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术，致力于GPU或其他异构硬件的高性能系统开发。 4. 参与公司高性能分布式算法库的开发，大规模矩阵求解，优化问题等。职位要求： 1. 计算机、电子、通信专业，硕士及以上学历。 2. 精通C++语言，具有3年及以上的linux环境下C/C++多线程和多进程开发经验，熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构，了解常见处理器（X86、ARM等）、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验，通过对Linux内核的优化，开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验优先。 6. 具有优秀的团队沟通和协作能力、责任心强，善于学习，有较强的自我驱动，具有独立分析并解决问题的能力。
高性能计算资深工程师（分布式训练）
[北京·小关] 2023-09-02

40k-70k·16薪经验不限 / 本科

小红书

消费生活 / D轮及以上 / 500-2000人

1.负责机器学习分布式训练方向的工作，系统开发、高性能优化 2.熟悉分布式训练框架，熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验，支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程，网络吞吐性能优化，可对神经网络特定layer进行深层优化
高性能计算资深工程师（分布式训练）
[上海·黄浦区] 2023-09-02

40k-70k·16薪经验不限 / 本科

小红书

消费生活 / D轮及以上 / 500-2000人

1.负责机器学习分布式训练方向的工作，系统开发、高性能优化 2.熟悉分布式训练框架，熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验，支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程，网络吞吐性能优化，可对神经网络特定layer进行深层优化
博士后专项-高性能计算博士后
[北京·西北旺] 2023-08-31

35k-45k·13薪经验不限 / 博士

网易

移动互联网,教育 / 上市公司 / 500-2000人

高性能计算博士后研究方向： 1、开展高性能计算和AI交差课题相关研究； 2、大规模分布式训练性能优化，如高质量高性能的优化器； 3、AI神经网络研究，设计低计算量高质量的神经网络； 4、鼓励发表高水平研究成果。职位要求： 1、年龄在35周岁以下，获得博士学位不超过三年（含应届），计算机及其他相关理工类专业；； 2、熟悉ARM64、X86、GPU、NPU体系结构； 3、熟悉并行编程框架(MPI/OpenMP/CUDA/OpenCL等)，有高性能计算开发、调优、算法设计开发经验者优先； 4、熟悉PyTorch、TensorFlow等框架，对训练框架做过深度优化者优先； 5、有较强的独立科研能力与团队合作能力，以**作者在相关领域发表过高水平论文。
高性能研发工程师
[成都·高新区] 2023-08-22

30k-40k·14薪经验10年以上 / 本科

ZDNS

数据服务,信息安全 / 不需要融资 / 150-500人

职位描述： 1、负责公司DNS服务器软件的设计、开发、优化； 2、负责DNS服务器和云管平台/系统（如k8s、openstack）的适配、对接； 3、负责DNS服务器对外的技术宣讲和推广； 4、负责新人的技术培养和培训；职位要求： 1、计算机相关专业本科以上学历，具有5年以上高性能服务器软件开发工作经验； 2、熟练掌握c/c++语言及常用的算法和数据结构； 3、具有Linux下高性能网络通信相关的开发经验； 4、加分项：有分布式、虚拟化等技术的开发经验者优先；加分项：有高性能服务器软件（redis/nginx/BIND）开发经验者优先；有DPDK/XDP开发经验者优先；有Lua、openresty开发经验者优先
高性能计算工程师（AIGC方向）
[深圳·西丽] 2023-06-26

35k-65k·16薪经验不限 / 本科

虎牙科技

社交,游戏 / 上市公司 / 2000人以上

【岗位职责】 1.参与深度学习推理引擎持续迭代优化，编译优化和工程化 2.负责各种图像处理算法、数学运算在计算设备上的高性能实现 3.分析算法落地的性能瓶颈，设计合理且高效的优化方案，推动算法落地【任职需求】 1.精通c/c++，精通算法与数据结构 2.熟悉计算机体系结构，具备良好的并行计算基础 3.熟悉至少一种深度学习推理框架如TensorRT/TVM/TF（不限于），熟悉计算加速库如BLAS、Eigen等 4.熟悉计算图优化，及量化、裁剪、蒸馏等模型优化的优先加分项有并行加速经验及熟悉Cuda者优先有高性能计算性能指标超越同类竞标对象优化经验优先有Transformer架构模型推理优化经验者优先 base地：广州/深圳