-
职位职责: 1、负责云网络AI Infra业务研发,探索推理框架与云网络系统的深度集成,优化大模型推理性能; 2、推动云网络与大模型加速相关生态建设,设计和实施AI Infra中云网络的软硬结合解决方案; 3、持续跟进LLM前沿技术和开源方案,完成业务场景化分析,并落地云网络产品,提升产品竞争力。 职位要求: 1、计算机相关专业,本科以上学历,5年以上研发/架构经验; 2、熟悉主要云厂商的AI Infra解决方案,有分布式计算和网络项目经验; 3、熟悉主流AIGC算法模型原理,熟悉LLM/CV/NLP/推荐系统等业务场景的系统和原理; 4、有高性能网络(如RDMA、NCCL、MPI等)开发经验者优先。
-
职位职责: 1、负责云网络AI Infra业务研发,探索推理框架与云网络系统的深度集成,优化大模型推理性能; 2、推动云网络与大模型加速相关生态建设,设计和实施AI Infra中云网络的软硬结合解决方案; 3、持续跟进LLM前沿技术和开源方案,完成业务场景化分析,并落地云网络产品,提升产品竞争力。 职位要求: 1、计算机相关专业,本科以上学历,5年以上研发/架构经验; 2、熟悉主要云厂商的AI Infra解决方案,有分布式计算和网络项目经验; 3、熟悉主流AIGC算法模型原理,熟悉LLM/CV/NLP/推荐系统等业务场景的系统和原理; 4、有高性能网络(如RDMA、NCCL、MPI等)开发经验者优先。
-
岗位职责: 1 开发和维护GPU服务器及集群的自动化验收和部署工具; 2 部署和运维各GPU集群,监控和识别常见问题及推动解决; 3 部署和运维公司业务系统所需的平台组件,包括k8s、日志、监控、报警系统等; 4 组织落地新增IDC服务器上机事宜,包含网络、存储等规划和实施等。 任职要求: 1 计算机专业或相关专业,本科学历学位,能独立完整阅读理解纯英文技术文档; 2 3年-7年相关工作经验,有Infra或SRE工作经验,熟悉DevOps流程,一手承担过运维工作; 3 精通Linux,熟悉docker、k8s,了解Ansible、Helm,了解微服务架构; 4 熟悉常用组件的部署和维护,如mysql、redis、MQ、ELK、prometheus、grafana等; 5 熟悉shell脚本,熟练掌握git; 6 热爱技术,钻研本质,终身学习,在工作中不被经验束缚,从**性原理出发思考问题。
-
岗位职责 工作地点:深圳,北京、上海、杭州、苏州、南京、成都、西安。 1、IP 验证,根据 spec 提取测试点、制定验证计划; 2、搭建验证平台,编写验证用例,执行验证; 3、Failure、Bug 分析及定位,Coverage 分析及收敛; 4、按时、保质完成各节点的交付; 5、开发验证相关的自动化工具。 任职要求 1、微电子、电子工程、通信、计算机等专业本科及以上学历,5年以上相关工作经验,有 IP 验证经验,有ISP验证经验优先; 2、精通 Verilog/SystemVerilog 和 UVM,能够独立搭建验证环境; 3、精通 C/C++等编程语言,熟悉 reference model 的开发及使用; 4、掌握至少一种脚本语言:Makefile、Perl、Python、Ruby、Tcl 等; 5、熟悉常用 EDA 工具的使用,如 verdi、vcs、ncsim 等; 6、具备强烈的责任心、驱动力和schedule意识,良好的学习能力、团队合作精神、沟通表达和问题分析能力。 加分项 a)有 ISP 验证经验 b)有 NPU 验证经验 c)熟悉视频编解码
-
职位描述与方向: 1. 负责各类业务场景的 GraphQL 及其他协议接口开发与服务发布; 2. 美餐服务 log、tracing、metrics 等可观察性相关内容迭代、维护; 3. 以 Node.js 框架为主的 BFF 层开发; 4. 与产品、设计师、后端工程师密切合作,参与开发、优化业务接口; 5. 参与 GitLab CI/CD、Docker 与 AWS 等技术实践。 职责与任职要求: - 前端 HTML、CSS、JavaScript 基础知识扎实; - 精准产品业务流程、需求,愿意为提升用户体验作出最大努力; - 熟悉 HTTP、TCP、UDP 等常见协议; - 熟悉 Node.js 服务测试流程,懂得如何写出可测试的代码; - 熟悉 GitFlow 流程; - 能独立完成工作、具备优秀的时间管理与英文文档阅读能力; - 至少有一个以 Node.js 为主的项目开发经验,并了解 BFF 实践与微服务或其他主流架构,有具体实践为佳; - 良好的沟通能力,有责任心,愿意自我驱动,爱折腾新鲜事物,能够快速学习新技术并实践。 我们的技术栈: - TypeScript、ES2020+ - React 17+、Redux、MobX、Next.js、Webpack、SWC - Express、NestJS、GraphQL、WebSocket、Protocol Buffers、gRPC、Jest、RxJS - Grafana、ELK、Jaeger、Redis、DynamoDB - Docker、K8s、GitLab、AWS、Serverless 加分项: - 服务端监控开发、维护经验; - 使用过 AWS、腾讯云、阿里云等云服务; - 有微前端、CLI、SDK、低代码平台开发经验; - 了解其他语言,如 Python、Go、Java、Kotlin 等; - 使用过 Figma、Sketch 等设计工具。 工作风格、福利及其他: - 提倡 Work-Life Balance,目标内可自由安排工作时间并以结果为导向,拒绝 996 和无效加班; - 公司实行扁平化管理,无 leader 概念,有 Scrum 中的 SM 和 PO 角色; - 周期性技术分享,组织参加 GopherChina、JSConf、AWS Summit 等技术会议; - 入职即配置任意品牌电脑,每 2 年换新,旧电脑归个人所有; - 配置 Herman Miller Embody 人体工学椅、电动升降桌; - 定期组织团建,每周有足球、篮球、羽毛球等体育活动; - 期权分配。
-
岗位职责: - 协助团队负责人监控团队日常运营并准备管理仪表板; - 调查/实施/维护对 AIA TSS 所有用户的基础设施服务/流程; - 带领项目组实现项目目标; - AIA TSS 用户的日常运营支持服务(包括网络和服务器); - 供应商和资源管理; - 提供动手BCP/DRP 演练支持和技术解决方案; - 在日常运作中严格遵守 AIA 标准和内部程序/指南; - 按照指示完成其他相关任务。 任职要求: - IT 或相关学科本科及以上学历; - 至少2年 IT 工作经验; - 良好的英文读写能力; - 扎实的网络和 Windows 支持经验; - CCNA/CCNP/MCSE/MCSA 等 IT 认证是一个优势; - 团队合作精神,成熟,乐于承担责任和挑战。
-
职位描述: 负责自动驾驶车端软件的开发工作,包括软件系统架构设计、中间件开发、提供完善的自动驾驶系统framework等。 职位要求: 1. 计算机、软件相关专业本科及以上学历 2. 熟练掌握C++,包括C++ 14后的的新特性,有大型C++项目开发经验 3. 熟练掌握常用的数据结构、算法和设计模式 4. 具备良好的编码规范,能够和团队充分沟通协作,对工作富有责任心,有良好的自我驱动力 加分项: 1. 有自动驾驶或机器人相关领域经验 2. 有大型framework的开发经验 3. 有向大型开源项目贡献过代码
-
职位描述: 负责自动驾驶车端软件的开发工作,包括软件系统架构设计、中间件开发、提供完善的自动驾驶系统framework等。 职位要求: 1. 计算机、软件相关专业本科及以上学历 2. 熟练掌握C++,包括C++ 14后的的新特性,有大型C++项目开发经验 3. 熟练掌握常用的数据结构、算法和设计模式 4. 具备良好的编码规范,能够和团队充分沟通协作,对工作富有责任心,有良好的自我驱动力 加分项: 1. 有自动驾驶或机器人相关领域经验 2. 有大型framework的开发经验 3. 有向大型开源项目贡献过代码
-
Infra Engineer - IT基础设施建设工程师
[广州·新港] 2023-03-2812k-16k·13薪 经验3-5年 / 本科IT技术服务|咨询 / 上市公司 / 2000人以上岗位职责: - 协助团队负责人监控团队日常运营并准备管理仪表板; - 调查/实施/维护对 AIA TSS 所有用户的基础设施服务/流程; - 带领项目组实现项目目标; - AIA TSS 用户的日常运营支持服务(包括网络和服务器); - 供应商和资源管理; - 提供BCP/DRP 实操支持和技术解决方案; - 在日常运作中严格遵守 AIA 标准和内部程序/指南; - 按照指示完成其他相关任务。 任职要求: - IT 或相关学科本科及以上学历; - 至少 3 年 IT 工作经验; - 良好的英文读写能力; - 扎实的网络和 Windows 支持经验; - CCNA/CCNP/MCSE/MCSA 等 IT 认证是一个优势; - 团队合作精神,成熟,乐于承担责任和挑战。 -
职位描述: 需要有良好的编码习惯和代码编写规范。能独立完成系统设计,编码工作和单元测试覆盖。 日常工作中,需要为应用开发团队、算法团队提供一些框架性的支持。 能够利用一些开源工具完成服务器的日常维护工作。 职位职责: - 负责QT应用的性能优化、网络通信框架的维护。 - 通过terraform和ansible完成服务器与数据库的部署与维护工作(<10台)。 - 完善现有AI模型训练的框架,并在指导下承接后续的开发与维护工作,给算法团队提供可以平行扩展的模型训练服务。 岗位要求: 本科及以上学历,Linux开发经验,熟悉linux网络编程; 熟练掌握C/C++ 和 Python编码,能书写规范的单元测试; 良好的沟通协调和学习能力,敏捷的思维辨证能力,优秀的团队合作精神; 有工作热情,具有良好的沟通技巧和团队合作精神,抗压能力强; 良好的英文阅读能力,较好的听说能力; NOIP、NOI、ACM / ICPC获奖是加分项。 以下工具掌握越多越好:bazel、cmake、gtest、pytest、gRPC、terraform、ansible、QT;
-
岗位职责: 1. 根据公司AI战略规划和业务需求,负责高可用性、高性能、可扩展性强的AI基础设施网络架构方案的设计与研发。 2. 对AI训练和推理过程中涉及的网络流量进行性能调优,设计和优化网络通信模型与网络路由协议,不断提升大规模集群的计算效率。 3. 制定和实施基于云计算的网络策略,包括VPC、子网划分、路由策略、负载均衡、防火墙规则、安全策略等。 4. 持续探索AI Infra网络领域的新技术,持续保持在技术上的竞争力。 任职要求: 1. 计算机科学、信息技术或相关领域本科及以上学历; 2. 5年以上网络架构设计与实施经验,有AI相关的基础设施的建设与调优经验; 3. 满足以下至少2条开发经验要求: -RDMA协议的应用优化及拥塞控制算法优化工作经验,熟悉IB/RoCE网络; -GPU集群部署的性能优化工作经验,了解GPU互联,熟悉NVLink、NVSwitch; -GPU虚拟化,至少熟悉vCUDA、cGPU、qCUDA、rCUDA等一种虚拟化方案; -CUDA和NCCL的优化工作,熟悉CUDA算子库、runtime、driver库相关API; 4. 熟悉公有云服务提供商的网络服务,并有实践经验; 5. 强烈的责任心、优秀的沟通能力和团队协作精神; 6. 拥有网络专业认证者优先。
-
工作内容: •积极跟进所负责项目的各项任务,负责任务状态更新,任务问题跟踪,任务依赖项识别管理并整合各项指标,汇总报告项目进度情况和跟踪风险管理措施; •与业务伙伴协作,对项目的预算使用状况和资源分配情况进行及时的同步; •负责管理项目所涉及商务合同的起草、修订、审查及归档工作,确保项目执行的合规性以及项目范围的完整性和正确性; •参照公司管理要求及业界实践,负责项目全过程交付物的完整性、可追踪性、准确性和及时更新,确保项目各个阶段的交付有据可查; •负责定期的项目状态报告,通过专业和客观的数据来反映项目执行的各项指标; •提供即时、及时、专业的技术服务,响应管理团队、项目干系人或其他业务伙伴的咨询或疑问,并判断优先级按序处理; •通过书面形式将自己所学的新知识与团队成员分享,帮助团队成员成长、共同实现团队目标。 技能要求: •3年以上infra相关的IT项目管理经验; •有过一个及以上network相关经验是大加分项 •精通英语口语和书面表达,能够清晰地表达观点和准确地理解信息;
-
基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。 在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。 在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。 真诚地邀请你,和我们一起驱动技术发展,创造行业价值。 岗位职责 1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先 岗位基本需求 1. 有扎实的计算机理论基础,熟练掌握C++或Python语言 2. 具备良好的问题分析和一定的解决能力,具有较好的学习能力和好奇心驱动。 岗位亮点 业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座,接触最前沿的AI Infra基础设施,结合最前沿的AI平台软件栈,支撑最前沿的大模型不同领域的算法探索,从算法到算子,从芯片架构到互联集群,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长,在垂直,水平等多个领域和维度,全面感受大模型带来的技术变革!
-
基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。 在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。 在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。 真诚地邀请你,和我们一起驱动技术发展,创造行业价值。 岗位职责 1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先 岗位基本需求 1. 有扎实的计算机理论基础,熟练掌握C++或Python语言 2. 具备良好的问题分析和一定的解决能力,具有较好的学习能力和好奇心驱动。 岗位亮点 业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座,接触最前沿的AI Infra基础设施,结合最前沿的AI平台软件栈,支撑最前沿的大模型不同领域的算法探索,从算法到算子,从芯片架构到互联集群,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长,在垂直,水平等多个领域和维度,全面感受大模型带来的技术变革!
-
岗位职责: 1、负责车联网后端服务IT混合云架构的设计和优化工作,包括公有云(阿里/腾讯),私有云(VMware、OpenStack等); 2、负责核心技术问题的攻关,系统优化协助解决产品/项目开发过程中的技术难题; 3、负责容量、容灾等需求的架构类工作; 4、负责研究PaaS相关的各种技术,深入了解网络、存储、Docker、Kubernetes、日志监控等技术并指导应用; 5、跟踪业界最新领域技术(例如云计算、DevOps),做好技术规划和业务布局,推进IaaS/PaaS领域前沿技术的探索和应用,推动发展前沿的架构方案并组织实现。 任职要求: 教育:***大学本科以上学历,计算机、信息技术、软件工程等专业。通过CET-4 专业能力: 1、精通IaaS平台架构,精通分布式存储,熟悉分布式框架资源管理和调度算法; 2、精通IT infra,Web后端等技术,具备Java应用运维经验,熟悉Spring Cloud等微服务架构; 3、熟悉常见公有云阿里/腾讯/AWS相关服务和组件; 4、熟悉Docker和K8S容器等生态系统; 5、了解Hadoop/Spark等大数据平台,了解Redis,Zookeeper,Kafka, Nginx等中间件; 6、了解网络虚拟化(vxlan)、SDN、容器网络、L4-L7服务(NAT/LB/VPN/API Gateway); 7、有自动化运维实施经验,能够设计和编写自动化运维程序以及进行多种运维工具集成; 非专业能力: 1、持有相关认证,VCP及以上/CCNA及以上/HCIP及以上或其他相关中级以上认证。 2、具备良好的沟通能力; 3、具备良好的学习能力和学习习惯; 4、具较很强的自驱力,能在高压下完成工作 工作经验: 1、8年以上IT工作经验 2、3年以上IT架构工作经验。