• 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 团队介绍:我们是「豆包视频生成模型-PixelDance」团队,我们专注于开发视频生成模型,解决视频生成的关键问题,包括但不限于高动态性视频生成、内容一致性保障。构建行业领先的视频基础模型,引领技术的未来潮流。视频生成工程团队的工作涉及到模型生产的全周期流程,在这里,你有机会参与到模型的数据生产、训练加速、推理加速、服务部署的每个环节。同时你将接触到最先进的视频生成技术、海量的数据、大规模的集群,我们期待你能够和我们的模型一同Scale UP。 1、视频处理端到端性能优化:负责视频数据处理的性能提升,包括但不限于视频编解码优化、蒸馏、量化、Kernel优化;对异构资源进行合理分配和优化,充分利用各类硬件资源提升视频数据处理能力,提高资源利用率以应对海量视频数据的挑战; 2、数据层处理平台化建设:参与视频数据处理平台的设计与建设,制定平台的技术架构和发展规划;持续优化平台功能,确保平台的稳定性、可靠性和可扩展性,满足不断增长的业务需求; 3、视频数据生产管理:统筹视频数据的采集、整理、存储等生产环节,建立高效的数据生产流程;确保视频数据的质量和准确性,对数据进行严格的审核和校验; 4、算法优化与创新:不断探索和研究新的视频数据处理算法和技术,对现有算法进行优化和改进;结合人工智能、机器学习等先进技术,提升视频数据的分析和处理能力,为业务提供更有价值的洞察。 职位要求: 1、计算机及相关专业,本科及以上学历,良好的沟通和团队协作能力; 2、精通Python或Golang等至少一种编程语言; 3、熟练使用GPU或NPU高性能编程技术为模型训练或推理加速,例如:CUDA、CUDNN、CUTLASS、Triton等; 4、熟练使用开源推理加速工具为模型加速,例如:TensorRT-LLM、vLLM、TVM、torch.compile等,并深入理解背后原理; 5、具备以下一个或多个能力者优先: 1)具有数据处理相关经验,熟悉图像或视频数据处理方法,了解CV、VLM和Diffusion Model相关算法; 2) 熟悉大数据分布式处理框架Spark、Flink、Hadoop、Ray者优先; 3)熟练使用DALI、OpenCV、FFmpeg等图像处理工具。
  • 40k-60k·16薪 经验3-5年 / 硕士
    金融业 / 不需要融资 / 50-150人
    工作职责: 1. 参与公司高性能计算平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现,例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发。 4. 开发公司高频策略所需的高性能回测系统。 职位要求: 1. 计算机、电子、通信专业,硕士及以上学历。 2. 精通C++语言,具有3年及以上的linux环境下C/C++多线程和多进程开发经验, 熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构,了解常见处理器(X86、ARM等)、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验,通过对Linux内核的优化,开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验,能够基于相关GPU框架(Tensorflow、Pytorch)进行性能或通信上的优化,以提升相关系统在海量金融数据(TB级)下的高速传输和计算。 6. 具有优秀的团队沟通和协作能力、责任心强,善于学习,有较强的自我驱动,具有独立分析并解决问题的能力。
  • 30k-50k·14薪 经验1-3年 / 硕士
    移动互联网,广告营销 / 上市公司 / 2000人以上
    岗位职责: 1、负责推理加速算法的研发和实现,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等; 2、负责深度学习模型的量化和蒸馏,实现高效的模型压缩和部署,提高模型的运行效率和推理速度; 3、负责LLM/多模态模型的端到端部署和流程优化,探索包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等; 5、负责设计和研发AI端到端任务编排体系,提升AI大模型在业务中的应用效率; 6、负责优化计算集群的资源调度和弹性计算策略,提升集群的资源利用率。 岗位要求: 1、硕士及以上学历,计算机专业出身; 2、熟悉CPU/GPU架构与工作原理,有深度学习系统研发经验,熟悉CUDA编程并有相关开发经验,熟悉CUDA、Triton等算子编写的相关技术; 3、具有深度学习推理加速和优化的经验,熟悉常见的加速技术,如剪枝、量化、分布式推理等,并能够根据不同场景和硬件平台进行针对性的优化; 4、 熟悉常见的模型量化技术,如低精度量化、动态量化等,并能够进行模型的量化优化,熟悉计算机体系结构基础知识,有扎实高性能计算(GPU/x86/ARM等)、或推理框架及AI编译(TRT/TVM等)、或模型算法优化(量化/稀疏等)方面的经验; 5、熟悉常见的深度学习框架,如PyTorch、TensorFlow等,并能够根据业务需求进行算法实现和调试。熟悉常见GPU服务部署框架和服务部署流程,如Triton等,能够实现动态批处理和GPU服务调度,熟悉K8S上GPU的调度和隔离方案,熟悉Docker; 6、熟悉LLM/多模态相关的算法技术以及推理加速方法,具有LLM训练及开发经验,如大模型数据处理、模型微调、预训练、强化学习等,了解TRT-LLM,deepspeed,VLLM等训练或推理加速框架; 7、具备较强的团队合作和沟通能力,优秀的分析和解决问题能力,对挑战性问题充满激情,自驱有追求,具备较强的攻坚能力。
  • 30k-60k 经验不限 / 本科
    内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 团队介绍:Ads Infra(广告系统架构)是负责建设字节跳动中国区广告业务架构与基础架构的中台团队。Ads Infra的工作职责包括:负责字节跳动中国区的广告投放系统、广告算法服务和深度学习能力的架构设计与实现;负责抖音、今日头条等各端上的广告业务中台系统研发;负责构建高并发、高性能、高可用的服务框架,设计和研发多数据中心的广告系统架构。我们一端链接广告主的海量营销需求,一端承载字节跳动中国区产品、媒体合作伙伴的海量流量,依托可靠的计算广告技术和深度学习能力,精准匹配广告与用户需求,让营销更高效、更智能、更可持续。 1、针对广告/推荐/搜索等场景,优化模型训练/推理的计算图执行效率; 2、通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能训推引擎; 3、设计和开发高性能算子库,研究最新的GPU计算技术和优化方法,以充分利用GPU/NPU的并行计算能力,支持各种机器学习和深度学习模型的构建和部署; 4、负责机器学习系统前瞻技术的调研和引入,例如最新硬件架构、异构计算系统、GPU优化技术、编译优化技术的引入和落地。 职位要求: 1、本科及以上学历,计算机、软件工程等相关专业,具备扎实的计算机基础; 2、熟悉Linux操作系统和开发环境,熟练掌握C/C++/Python等一种或多种编程语言并深入了解语言特性,具备良好的数据结构、算法基础和系统设计能力; 3、拥有强烈的求知欲、优秀的学习和沟通能力; 4、熟悉至少一种机器学习框架(PyTorch/TensorFlow/PaddlePaddle或其他自研框架),熟练掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护。 加分项: 1、熟悉主流高性能并行编程技术,有GPU编程经验(CUDA或Triton); 2、有TensorRT/Cutlass开发经验,熟悉TRT-LLM、VLLM等推理框架; 3、熟悉开源ML编译器代码(XLA/MLIR/TVM)并有相关开发经验; 4、熟悉PyTorch、FSDP、DeepSpeed、Megatron等业界主流分布框架的使用和原理。
  • 20k-40k·16薪 经验3-5年 / 本科
    居住服务 / 上市公司 / 2000人以上
    工作职责: 1.打造贝壳的高性能存储解决方案及推动系统落地, 支撑模型开发的全链路,提高深度学习开发效率以及加速模型训练。 工作内容: 1.调研并设计高性能存储解决方案; 2.高性能存储系统落地及业务适配; 3.提高系统的吞吐及稳定性,建设完善的监控与运维体系. 任职资格: 1. 3~5 年以上后端开发经验; 2.熟悉计算机体系结构、数据结构和算法、操作系统、数据库、网络等基础原理; 3.精通 Golang 或至少一类后端编程语言(C++/JAVA/Python 等)且具备快速转向 Golang 的能力; 4.有分布式的软件架构设计、开发和运维经验,能快速定位和调试问题; 5.有良好的测试习惯以保证高质量软件的产出; 6.优秀的沟通协作能力、分析解决问题能力和学习能力; 7.熟悉 juicefs、alluxio、fluid等系统优先;
  • 35k-65k 经验3-5年 / 本科
    智能硬件,电商平台 / 上市公司 / 2000人以上
    职位描述 1. 配合算法研究员完成算法的落地与部署工作,并在代码与指令集层面优化算法运行效率。 2. 设计基于GPU的高性能算法基础库,支持下游各个算法研发。 职位要求 1、熟悉CUDA工作原理,能独立完成代码热点分析并制定优化方案。 2、良好的编程能力,熟悉python, c++,掌握常见的算法和数据结构知识; 3、良好的工程能力,有较强的的代码结构设计能力,熟练使用git、ssh,cmake等工具。 加分项 1、ACM/ICPC、CCPC、NOI、IOI等计算机/信息学竞赛获奖经历。
  • 30k-50k·14薪 经验3-5年 / 硕士
    移动互联网,广告营销 / 上市公司 / 2000人以上
    岗位职责: 1、负责推理加速算法的研发和实现,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等。 2、负责深度学习模型的量化和蒸馏,实现高效的模型压缩和部署,提高模型的运行效率和推理速度。 3、负责LLM/多模态模型的端到端部署,包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等。 4、负责扩散模型的端到端部署和AI绘图的高并发服务流程设计,包括但不限于核心算子/采样器优化、模型优化和压缩、服务流程优化。 5、负责设计和研发AI端到端任务编排体系,提升AI大模型在业务中的应用效率。 6、负责优化计算集群的资源调度和弹性计算策略,提升集群的资源利用率。 岗位要求: 1、硕士及以上学历,计算机专业出身。 2、熟悉CPU/GPU架构与工作原理,有深度学习系统研发经验,熟悉CUDA编程并有相关开发经验。 3、具有深度学习推理加速和优化的经验,熟悉常见的加速技术,如剪枝、量化、分布式推理等,并能够根据不同场景和硬件平台进行针对性的优化。 4、 熟悉常见的模型量化技术,如低精度量化、动态量化等,并能够进行模型的量化优化。 5、熟悉常见的深度学习框架,如PyTorch、TensorFlow等,并能够根据业务需求进行算法实现和调试。 6、熟悉LLM/多模态相关的算法技术以及推理加速方法。 7、有团队管理经验者优先。 8、具备较强的团队合作和沟通能力,优秀的分析和解决问题能力,对挑战性问题充满激情,自驱有追求,具备较强的攻坚能力。
  • 14k-20k 经验在校/应届 / 硕士
    智能硬件 / 不需要融资 / 2000人以上
    工作地点杭州之江实验室新园区 岗位职责: *与芯片设计人员合作,开展高性能算子库的需求分析; * 负责在众核计算芯片上实现各类AI算子库以及基础数学运算库; 职责要求: *计算机、数学、物理、微电子、通信、自动化等相关专业 *有实际开发经历,具有较强的程序设计和实现能力,具备良好的计算机体系结构、操作系统方面的理论基础。 * 熟练掌握 C/C++/汇编中的一项或多项; 满足以下一种或多种条件者优先(没有下述任何经验的也可投递简历): 1. 熟悉高性计算能库,如TensorRT、OpenBLAS、MKL、cuDNN等 2. 熟悉MPI/CUDA编程 3.精通linux环境下C++编程
  • 14k-20k 经验在校/应届 / 硕士
    智能硬件 / 不需要融资 / 2000人以上
    工作地点杭州之江实验室新园区 岗位职责: •针对国产高性能计算部件,设计和优化多种类应用场景下的高性能计算算法,如信号处理算法、矩阵算法等 •根据项目需求,完成高性能计算工具和框架的优化; 职责要求: •计算机、电子、应用数学等专业硕士及以上学历; •熟悉计算机体系结构、计算机组成原理、操作系统、编译器者优先。 •有代数矩阵运算、信号处理、图像处理算法在不同处理器上移植和调优经验的优先; •有志于从事高性能计算、异构计算者优先。
  • 工具 / 上市公司 / 2000人以上
    职责 -负责深度学习推理引擎的优化工作,主要针对GPU、CPU以及自研语音芯片 -负责深度学习算法在多终端工程优化和落地 -负责深度学习模型训练框架的高性能计算优化工作 要求 -精通C/C++编程,编程习惯和功底扎实优秀 -对深度学习算法有一定了解,具备将复杂问题进行数学建模的意识和能力 -对高性能计算\分布式计算\异构计算\编译系统等有了解,有过mpi、gcc、gpu等开发经验加分 -了解多线程加速,DSP相关移植,单指令多数据加速,进程间通信,有过DSP的指令集以及加速方法开发经验的加分; -沟通能力和团队合作意识强,热爱挑战,踏实勤奋
  • 企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    【岗位职责】 ·参与GPU-RDMA端网协议与算法的设计、开发与调优工作。 ·参与GPU高速网络通信库的设计、开发与卸载加速工作。 ·实现高性能网络的状态监控、配置校验和故障定位。 ·与团队成员协作,进行技术攻关,提升系统可扩展性和稳定性。 ·与芯片厂商合作,开展网络新硬件、新协议和新架构设计。 ·跟踪和研究面向GPU集群的分布式系统优化技术和BDMA网络通信技术 【岗位要求】 ·计算机科学、通信工程或相关领域的学士、硕士或博士学位。 ·扎实的编程能力,熟练掌握至少一种编程语言,如C、C++、Golang等。 ·深刻理解高性能网络协议栈、网络处理器体系结构、数据中心网络、分布式系统。 ·精通集合通信、拥塞控制、流量调度、路由查找、网络校验、拓扑设计等。 ·熟悉Linux内核协议栈、DPDK、RoCEv2、NCCL、MPI、UCX等底层驱动和通信接口。
  • 30k-60k·14薪 经验不限 / 硕士
    IT技术服务|咨询,人工智能服务 / 天使轮 / 50-150人
    工作职责: 1. 参与公司高性能计算算法平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现,例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发。 4. 参与公司高性能分布式算法库的开发,大规模矩阵求解,优化问题等。 职位要求: 1. 计算机、电子、通信专业,硕士及以上学历。 2. 精通C++语言,具有3年及以上的linux环境下C/C++多线程和多进程开发经验, 熟练掌握Linux环境下C++网络编程技术。 具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构,了解常见处理器(X86、ARM等)、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验,通过对Linux内核的优化,开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验优先。 6. 具有优秀的团队沟通和协作能力、责任心强,善于学习,有较强的自我驱动,具有独立分析并解决问题的能力。
  • 40k-70k·16薪 经验不限 / 本科
    消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 35k-45k·13薪 经验不限 / 博士
    移动互联网,教育 / 上市公司 / 500-2000人
    高性能计算博士后 研究方向: 1、开展高性能计算和AI交差课题相关研究; 2、大规模分布式训练性能优化,如高质量高性能的优化器; 3、AI神经网络研究,设计低计算量高质量的神经网络; 4、鼓励发表高水平研究成果。 职位要求: 1、年龄在35周岁以下,获得博士学位不超过三年(含应届),计算机及其他相关理工类专业;; 2、熟悉ARM64、X86、GPU、NPU体系结构; 3、熟悉并行编程框架(MPI/OpenMP/CUDA/OpenCL等),有高性能计算开发、调优、算法设计开发经验者优先; 4、熟悉PyTorch、TensorFlow等框架,对训练框架做过深度优化者优先; 5、有较强的独立科研能力与团队合作能力,以**作者在相关领域发表过高水平论文。