• 10k-15k 经验1-3年 / 本科
    企业服务,人工智能,工具 / 未融资 / 15-50人
    1. 面向不同的应用场景开发高性能 CUDA 程序 2. 和编译器团队紧密配合,针对硬件体系结构对算法进行分析,设 计,和优化 3. 对现有 CUDA 程序进行改写和适配 岗位要求: 1. 计算机/电子工程/数学/物理,本科及以上学历 2. 精通数据级并行程序设计和 GPGPU 编程,例如 CUDA、OpenCL 3. 精通 C/C++代码的编译、调试、分析和性能优化流程 4. 熟悉计算机体系结构,具有并行算法编程,调试,与优化经验
  • 40k-70k·16薪 经验不限 / 本科
    消费生活 / D轮及以上 / 500-2000人
    职位描述: 1. 分布式深度学习训练、推理系统核心技术研发; 2. 分布式系统优化,底层性能(GPU计算、存储、通信)优化; 4. 深度学习框架、超大规模分布式训练、推理等前沿问题的探索与研究,实现技术创新与突破。 职位要求: 推理优化或者分布式训练相关人选,精通CUDA开发
  • 40k-70k·16薪 经验不限 / 本科
    消费生活 / D轮及以上 / 500-2000人
    职位描述: 1. 分布式深度学习训练、推理系统核心技术研发; 2. 分布式系统优化,底层性能(GPU计算、存储、通信)优化; 4. 深度学习框架、超大规模分布式训练、推理等前沿问题的探索与研究,实现技术创新与突破。 职位要求: 推理优化或者分布式训练相关人选,精通CUDA的优先
  • 40k-60k 经验不限 / 本科
    内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责字节跳动自研芯片的系统软件架构设计和优化,参与重点模块的开发调试,支撑芯片最终产品在字节跳动数据中心大规模上线,并参与分析和解决线上重点问题; 2、负责SOC芯片BSP/驱动设计开发,负责硅前硬件仿真平台上的软硬件联调验证,硅后芯片调出和产品化; 3、洞察行业最新趋势,分析业界最新发布的产品,结合公司的业务需求和自研芯片架构,为芯片软硬件协同设计提供有价值的输入。 职位要求: 1、计算机相关专业,本科及以上学历,5年以上相关工作经验; 2、熟悉ARM/RISC-V SOC体系架构,有SOC芯片底层软件研发经验,熟悉芯片研发流程; 3、有丰富的BSP开发经验,有比较强的系统方案架构设计能力,熟悉SOC启动流程,熟悉Linux内核驱动开发,有丰富的问题分析定位经验; 4、熟悉ARM/RISCV CPU体系架构,熟悉GIC, SMMU,ARM CoreSight等硬件模块和Linux内核驱动。 加分项: 1、有GPU计算方向研发经验,熟悉GPGPU/NPU硬件架构,熟悉大模型推理和训练流程,驱动/Runtime/通信库和AI框架,熟悉CUDA/ROCm软件栈; 2、熟悉视频编解码规范(H264/HEVC/H266等),有硬件编解码Firmware/驱动开发经验,熟悉FFmpeg/Gstreamer框架对接; 3、擅长跨团队沟通交流协作,有项目或团队管理经验。
  • 25k-50k 经验3-5年 / 硕士
    消费生活 / 上市公司 / 2000人以上
    美团平台汇聚美食、外卖、酒店旅游、电影、打车、共享单车、休闲玩乐、美容美发等200多个品类和900万活跃商家,是具有全国影响力的零售科技平台。 我们团队不仅负责美团App的用户增长、大前端技术基础设施建设、公司语音和智能交互技术及产品研发,还承担了多条业务线的产品设计及品牌营销职责,同时整合地图服务部、客户服务和体验部等部门,致力于用科技提升美团数亿消费者、数百万商家、骑手、司机和团长的服务体验。美团平台拥有高并发、多业务的复杂场景,为技术深度优化提供了最佳实践可能。这里有简单、讲逻辑、有爱的团队,更是一块理想的实战场地,舞台广阔,欢迎你来尽情施展。 岗位职责 1、负责端到端开发新的 AI 功能,在整个 ML stack 中身兼数职。 2、负责训练新的模型,在效果、规模和推理速度方面迭代到先进的技术水平。 3、设计能够评估模型不同角度的评估方案。 岗位基本需求 1、5+ 年使用深度学习框架(如 Pytorch、Tensorflow、Jax)的经验。 2、Python 能力优秀 具备以下者优先 之一即可 1、有训练过 generative models 的经验。 2、在设计、训练、评估和部署机器学习模型(尤其是LLM)方面有深刻的理解。 3、具有使用 CUDA 或 Triton 编写 GPU 内核的经验。 4、有使用现代类型化语言(如Golang)编写高性能服务的经验。 5、具备数学或者物理背景 岗位亮点 1、获得在业内最前沿的大模型认知和技术积累,包括且不限于对 Scaling law、MoE、RLHF 、Long context 、CharacterAI 等技术方向的全新理解。 2、丰富的数据和GPU资源。
  • 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 团队介绍:我们是「豆包视频生成模型-PixelDance」团队,我们专注于开发视频生成模型,解决视频生成的关键问题,包括但不限于高动态性视频生成、内容一致性保障。构建行业领先的视频基础模型,引领技术的未来潮流。视频生成工程团队的工作涉及到模型生产的全周期流程,在这里,你有机会参与到模型的数据生产、训练加速、推理加速、服务部署的每个环节。同时你将接触到最先进的视频生成技术、海量的数据、大规模的集群,我们期待你能够和我们的模型一同Scale UP。 1、为LLM和Diffusion Model提供训练稳定性、易用性、性能和Scale up的优化; 2、能够使用Profiler手段,分析训练瓶颈,使用分布式策略调优、算子优化等手段来提升训练性能; 3、负责ByteDance Research训练优化技术的调研和引入; 4、与算法部门深度合作,进行算法与系统的联合优化。 职位要求: 1、本科及以上学历,计算机/电子/自动化/软件等相关专业,有AI工程优化经验的优先; 2、熟悉LLM、Diffusion Model任一场景的训练性能优化; 3、熟悉Pytorch、FSDP、Deepspeed、Megatron等业界主流分布框架的使用和原理,能够进行业务场景的优化,能够关注业界最新动态并进行落地; 4、熟练GPU的高性能计算优化技术,具备丰富的基于CUDA的GPU性能优化经验,深入理解计算机体系结构,熟悉并行计算优化、访存优化,低比特计算等; 5、了解深度学习算法基本原理,熟悉神经网络基本架构和各算子计算方式,了解至少一种深度学习训练框架及其模型文件的解析。
  • 25k-35k 经验3-5年 / 本科
    金融 / 上市公司 / 2000人以上
    工作职责 1、负责平安云容器产品的架构设计和落地工作; 2、负责容器云领域的前沿技术跟踪与应用,架构演进,支撑业务中长期发展; 3、深刻掌握平安容器服务架构技术体系,从架构视角在稳定性、成本、架构决策和定制系统层面,赋能平安云服务体验与架构演进; 4、能够解决线上技术问题,并不断提升系统性能及稳定性。 任职要求 1、本科以上学历,计算机相关专业,相关工作经验; 2、精通Golang开发语言,有相关的开发经验; 3、精通云原生核心技术原理,如容器运行时,Kubernetes,operator,容器网络,容器存储等核心机制; 4、精通容器CNI原理;精通网络相关数据面技术原理,具有独立研发CNI组件经验者优先; 5、精通容器CRI、NRI技术原理;熟悉主流容器运行时Docker,containerd,runc,kata等,具有独立研发CRI运行时能力; 6、精通容器CSI技术原理,精通主流分布式存储、本地存储等原理与机制,有存储研发经验者优先; 6、精通HPC平台相关技术,如:Gang 调度、PipeLine调度、RDMA, CUDA, RoCE,NCCL等,具有昇腾等信创平台研发经验者优先; 7、熟悉混部相关技术优先,如:koordinator, Caelus,及相关资源压制、调度技术; 8、具备云计算虚拟化,安全,网络,中间件,大数据等领域的10年以上研发或架构经历; 9、具有良好的沟通、团队协作能力,架构方案推动和落地能力; 10、有作为研发领域负责人或架构领域负责人经验者优先。
  • 30k-50k·14薪 经验1-3年 / 硕士
    移动互联网,广告营销 / 上市公司 / 2000人以上
    岗位职责: 1、负责推理加速算法的研发和实现,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等; 2、负责深度学习模型的量化和蒸馏,实现高效的模型压缩和部署,提高模型的运行效率和推理速度; 3、负责LLM/多模态模型的端到端部署和流程优化,探索包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等; 5、负责设计和研发AI端到端任务编排体系,提升AI大模型在业务中的应用效率; 6、负责优化计算集群的资源调度和弹性计算策略,提升集群的资源利用率。 岗位要求: 1、硕士及以上学历,计算机专业出身; 2、熟悉CPU/GPU架构与工作原理,有深度学习系统研发经验,熟悉CUDA编程并有相关开发经验,熟悉CUDA、Triton等算子编写的相关技术; 3、具有深度学习推理加速和优化的经验,熟悉常见的加速技术,如剪枝、量化、分布式推理等,并能够根据不同场景和硬件平台进行针对性的优化; 4、 熟悉常见的模型量化技术,如低精度量化、动态量化等,并能够进行模型的量化优化,熟悉计算机体系结构基础知识,有扎实高性能计算(GPU/x86/ARM等)、或推理框架及AI编译(TRT/TVM等)、或模型算法优化(量化/稀疏等)方面的经验; 5、熟悉常见的深度学习框架,如PyTorch、TensorFlow等,并能够根据业务需求进行算法实现和调试。熟悉常见GPU服务部署框架和服务部署流程,如Triton等,能够实现动态批处理和GPU服务调度,熟悉K8S上GPU的调度和隔离方案,熟悉Docker; 6、熟悉LLM/多模态相关的算法技术以及推理加速方法,具有LLM训练及开发经验,如大模型数据处理、模型微调、预训练、强化学习等,了解TRT-LLM,deepspeed,VLLM等训练或推理加速框架; 7、具备较强的团队合作和沟通能力,优秀的分析和解决问题能力,对挑战性问题充满激情,自驱有追求,具备较强的攻坚能力。
  • 25k-50k 经验3-5年 / 硕士
    消费生活 / 上市公司 / 2000人以上
    美团平台汇聚美食、外卖、酒店旅游、电影、打车、共享单车、休闲玩乐、美容美发等200多个品类和900万活跃商家,是具有全国影响力的零售科技平台。 我们团队不仅负责美团App的用户增长、大前端技术基础设施建设、公司语音和智能交互技术及产品研发,还承担了多条业务线的产品设计及品牌营销职责,同时整合地图服务部、客户服务和体验部等部门,致力于用科技提升美团数亿消费者、数百万商家、骑手、司机和团长的服务体验。美团平台拥有高并发、多业务的复杂场景,为技术深度优化提供了最佳实践可能。这里有简单、讲逻辑、有爱的团队,更是一块理想的实战场地,舞台广阔,欢迎你来尽情施展。 岗位职责 1、负责端到端开发新的 AI 功能,在整个 ML stack 中身兼数职。 2、负责训练新的模型,在效果、规模和推理速度方面迭代到先进的技术水平。 3、设计能够评估模型不同角度的评估方案。 岗位基本需求 1、5+ 年使用深度学习框架(如 Pytorch、Tensorflow、Jax)的经验。 2、Python 能力优秀 具备以下者优先 之一即可 1、有训练过 generative models 的经验。 2、在设计、训练、评估和部署机器学习模型(尤其是LLM)方面有深刻的理解。 3、具有使用 CUDA 或 Triton 编写 GPU 内核的经验。 4、有使用现代类型化语言(如Golang)编写高性能服务的经验。 5、具备数学或者物理背景 岗位亮点 1、获得在业内最前沿的大模型认知和技术积累,包括且不限于对 Scaling law、MoE、RLHF 、Long context 、CharacterAI 等技术方向的全新理解。 2、丰富的数据和GPU资源。
  • 35k-65k 经验3-5年 / 本科
    智能硬件,电商平台 / 上市公司 / 2000人以上
    职位描述 1. 配合算法研究员完成算法的落地与部署工作,并在代码与指令集层面优化算法运行效率。 2. 设计基于GPU的高性能算法基础库,支持下游各个算法研发。 职位要求 1、熟悉CUDA工作原理,能独立完成代码热点分析并制定优化方案。 2、良好的编程能力,熟悉python, c++,掌握常见的算法和数据结构知识; 3、良好的工程能力,有较强的的代码结构设计能力,熟练使用git、ssh,cmake等工具。 加分项 1、ACM/ICPC、CCPC、NOI、IOI等计算机/信息学竞赛获奖经历。
  • 9k-13k 经验1-3年 / 本科
    企业服务,信息安全,通讯电子 / 未融资 / 15-50人
    职位描述 1.负责修改编译安卓系统和rom包; 2.负责编译一些开源软件; 3.负责抓包分析一些软件的风控以及找到解决方法; 4.对底层各大镜像包有一定的见解,对其完成修改,达成我们的目的; 5.参与Android Framework的修改和定制,为 App应用层提供支持; 6.熟悉Android原生控件源码,并可以对其进行修改优化; 7.负责代码管理,把控模块级的代码质量和性能规格; 8.负责研发过程的重点、难点的技术攻坚: 任职要求 任职要求 1.本科以上学历,计算机软件或相关专业; 2.具备3年以上项目开发经验; 3.熟练掌握C#语言,了解.NET框架和C/C+编程语言等相关技术; 4.熟悉面向对象编程(0OP)和设计模式: 5.熟练掌握SQL数据库,Windows服务,TCP通讯和T-SQL语言; 6.熟练掌握winform,熟悉WPFMVVM模式者优先; 7.有CUDA开发经验、有VTK、PCL或OpenGL开发经验有相关工作经验优先考虑。
  • 智能硬件,电商平台 / 上市公司 / 2000人以上
    职位描述: 1. 自动驾驶模型部署,性能优化,将算法模型部署上车; 2. 算法后处理逻辑编写,通过后处理逻辑解决一些算法问题。 职位要求: 1. 精通C/C++; 2. 对深度学习有一定了解,有过模型部署经验,与算法团队有过密切合作; 3. 对cuda/tensorrt有一定了解; 4. 有自动驾驶AI模型部署,或者模型后处理经验者优先; 5. 具有良好的语言沟通及团队协作能力。
  • 25k-35k·16薪 经验3-5年 / 本科
    居住服务 / 上市公司 / 2000人以上
    职位描述 1、负责贝壳一站式机器学习平台的设计研发与迭代改进,为业务提供稳定易用、高性能、高性价比的解决方案; 2、业内机器学习系统与平台前沿技术进展跟进与调研、落地; 3、参与模型训练,模型服务,模型管理,资源调度等机器学习相关问题的开发。 任职要求 1、计算机基础知识与编程基本功扎实,熟悉Go/Python/C++至少一种; 2、参与过大规模分布式系统的开发和维护; 3、良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识 ; 4、善于学习新的知识,动手能力强,有进取心。 加分项: 1、有CUDA C/C++编程经验,有GPU并行计算编程基础(NCCL)经验优先; 2、了解分布式系统、容器相关领域技术,熟悉Kubernetes/docker等优先; 3、熟悉机器学习框架(Tensorflow/Pytorch/Jax)优先。
  • 40k-60k·16薪 经验3-5年 / 硕士
    金融业 / 不需要融资 / 50-150人
    工作职责: 1. 参与公司高性能计算平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现,例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发。 4. 开发公司高频策略所需的高性能回测系统。 职位要求: 1. 计算机、电子、通信专业,硕士及以上学历。 2. 精通C++语言,具有3年及以上的linux环境下C/C++多线程和多进程开发经验, 熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构,了解常见处理器(X86、ARM等)、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验,通过对Linux内核的优化,开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验,能够基于相关GPU框架(Tensorflow、Pytorch)进行性能或通信上的优化,以提升相关系统在海量金融数据(TB级)下的高速传输和计算。 6. 具有优秀的团队沟通和协作能力、责任心强,善于学习,有较强的自我驱动,具有独立分析并解决问题的能力。
  • 17k-20k 经验5-10年 / 本科
    IT技术服务|咨询 / 上市公司 / 2000人以上
    岗位要求: 1、具备本科及以上学历,计算机、数学等相关专业,5年以上工作经验; 2、熟悉Python,熟悉Linux; 3、熟悉cuda编程,国产化gpu硬件使用的优先; 4、精通Pytorch等主流框架; 5、熟悉nlp自然语言处理技术; 6、了解Transformer架构的大语言模型的模型结构和训练方法,有大语言模型的微调经验; 7、具备良好的学习能力、良好的沟通能力、团队协作能力; 8、***本科学历毕业5年以上,计算机相关专业,学信网可以查。(学历为硬性条件)