• 电商平台 / C轮 / 2000人以上
    岗位职责: 1、为集群的资源利用率负责,设计并实现高效的Kubernetes资源管理策略,确保集群资源的最优利用。 2、协调跨部门团队(包括开发、运维和产品团队)合作,确保资源优化策略的顺利实施。 3、持续评估新兴的容器技术和工具,以进一步提升集群的性能和资源利用率。 4、编制开发与操作文档,提供技术指导和培训,帮助团队成员掌握资源优化的最佳实践。 岗位要求: 1、计算机科学或相关专业的本科及以上学位。 2、至少5年以上使用Kubernetes的生产环境经验。 3、深入理解Kubernetes架构、配置和管理,以及在大规模环境中进行故障排除的经验。 4、精通HPA、CA等Kubernetes资源管理组件。 5、有使用服务画像及相关监控工具(如Prometheus、Grafana等)的实践经验。 6、熟悉云服务平台(AWS、Google Cloud Platform、Azure等)的运作。 7、对容器化和微服务架构有深刻理解,并有相关的优化经验。 8、具备优秀的跨团队沟通能力和项目管理能力。 9、具备自我驱动、学习能力,并能适应快节奏的环境。
  • 15k-30k·13薪 经验不限 / 本科
    移动互联网,企业服务 / B轮 / 15-50人
    团队介绍: 构建基于 Kubernetes 的机器学习平台 OpenBayes 提供从数据标注到模型部署的全流程服务。致力于不断降低机器学习体系的使用门槛,加速从原始数据到最终应用的转化。 职位介绍: 针对机器学习场景,围绕 Kubernetes 生态构建支撑组件,应用场景包括线上 JupyterLab 的编排 CRD、线上服务 CRD、跨节点机器学习任务 CRD 等。 职位职责: 1.平台已有的 CRD / Controller / Operator 的维护; 2.对 Kubernetes 的组件做扩展,实现特定的调度策略,支持不同硬件的调度流程; 3.按照业务需求构建 extended resource 实现异构计算资源的调度; 4.其他组件构建与维护。 职位要求: 1.本科及以上学历; 2.熟练应用 Go/Python/Java 等编程语言之一或多个,Go 语言最佳; 3.有一定的 Kubernetes 开发经验,了解其底层原理; 4.计算机基础扎实,有基本的算法和数据结构基础知识; 5.自主学习能力强,有意愿接受新技术并进入新领域,有良好的沟通能力和团队协作能力。 加分项: 1.了解并使用过基于 k8s 的机器学习训练框架 kubeflow 或其他; 2.对分布式系统管理有实践经验,对该领域有很大的热情; 3.了解云原生体系,对其生态有所了解。
  • 25k-40k·14薪 经验5-10年 / 不限
    营销服务|咨询,数据服务|咨询 / 上市公司 / 500-2000人
    岗位职责: 配合产品开发团队,保障FreeWheel数据平台的关键服务和重要基础设施的稳定、可靠地运行; 工作内容: 1. 深入理解业务,持续提升业务SLO/SLA; 2. 通过持续的全方位数据运营(包括可用性指标.历史事故.资源利用率等),找到系统容量、可用性、稳定性方面的薄弱点,并推进落地改进项目; 3. 参与建设运维工具.平台,推进运维自动化,量化数据,使用代码解决线上问题; 4. 参与故障应急响应处理,持续打磨监控系统,提升报警准确率,缩短故障定位时长; 5. 积累运维最佳实践,为业务及基础设施架构设计与资源选型提供指导,输出标准运维流程文档; 岗位要求: 1. 5年及以上相关工作经验,计算机科学或相关专业(通信、电子、信息、自动化等)优先; 2. 熟悉主流云厂商及服务,如AWS/GCP/Azure/AliCloud等; 3. 云环境管理与优化经验,包括成本管理,安全管理,运维管理,应用架构优化; 4. 熟悉业内流行的大数据或消息队列等分布式系统平台:Aerospike, Kafka, Hadoop,Yarn,HDFS,Hbase,Druid或其他NoSQL系统等; 5. 积极拥抱 “Infrastructure as Code”思想并有较丰富的实践经验,熟悉相关厂商及开源解决方案,如CloudFormation/Terraform等; 6. 运维平台设计与使用经验,如设计或参与开发过运维管理平台:资源管理,K8s管理,配置管理等; 7. 对多种云计算基础服务有较丰富的实践操作经验,包括但不限于: VPC, Subnets, Security Group, EC2, S3, IAM, Route 53, Security Hub etc; 8. 深入理解Linux操作系统,并掌握多种开源解决方案及相应技能:Kubernetes/Container/Nginx/Ansible/Prometheus/Grafana/ELK; 9. 熟悉Golang开发语言为优; 10. 工作积极主动,有强烈的责任心,执行能力强;善于思考总结,有很强的学习、问题分析和推进解决能力; 11. 基本的英文听说能力,较强的读写能力,能够快速融入英文工作环境。
  • 4k-8k 经验在校/应届 / 本科
    移动互联网,企业服务 / B轮 / 15-50人
    职位职责: 1. 平台已有的 CRD / Controller / Operator 的维护; 2. 对 Kubernetes 的组件做扩展,实现特定的调度策略,支持不同硬件的调度流程; 3. 按照业务需求构建 extended resource 实现异构计算资源的调度; 4. 其他组件构建与维护。 职位要求: 1. 本科及以上学历; 2. 熟练应用 Go/Python/Java 等编程语言之一或多个,Go 语言最佳; 3. 有一定的 Kubernetes 开发经验,了解其底层原理; 4. 计算机基础扎实,有基本的算法和数据结构基础知识; 5. 自主学习能力强,有意愿接受新技术并进入新领域,有良好的沟通能力和团队协作能力; 6. 实习时间至少三个月,每周至少三天。 加分项: 1. 了解并使用过基于 k8s 的机器学习训练框架 kubeflow 或其他; 2. 对分布式系统管理有实践经验,对该领域有很大的热情; 3. 了解云原生体系,对其生态有所了解。 实习期间表现良好有正式入职机会。
  • 15k-30k 经验3-5年 / 大专
    企业服务 / 不需要融资 / 50-150人
    岗位职责: 负责在 Kubernetes 环境中进行应用程序的部署、管理和维护。 设计、开发和维护 Kubernetes 集群的自动化部署和管理工具。 与团队合作,制定和实施 Kubernetes 的最佳实践。 分析、故障排除和解决 Kubernetes 集群的问题。 监控和调优 Kubernetes 集群的性能、可用性和容量。 参与容器化应用程序的设计和开发,并将其部署到 Kubernetes 集群中。 执行容器化技术和 Kubernetes 相关的安全性、合规性和最佳实践的审计。 任职要求: 对 Kubernetes 生态系统有深入的理解,熟悉 Kubernetes 的架构和核心概念。 熟悉使用 Kubernetes 进行应用程序的部署、管理和调度。 具备使用容器编排工具(如 Docker、Kubernetes)进行开发和部署的经验。 熟悉使用云原生技术栈,如容器编排、服务发现、负载均衡等。 熟悉 Linux 系统和命令行工具,具备良好的脚本编写能力。 具备良好的分布式系统和网络知识,能够故障排除和优化 Kubernetes 集群。 具备使用编程语言(如 Python、Go)开发和维护 Kubernetes 工具的经验。 熟悉容器和镜像技术,如 Docker、OCI 标准等。 具备与团队合作和沟通的能力,能够快速学习和适应新技术。
  • 20k-30k 经验3-5年 / 本科
    软件服务|咨询 / C轮 / 500-2000人
    岗位职责: 1. 负责基于公有云的大数据架构、开发、优化工作; 2. 负责Kubernetes operator,cluster autoscaler等基础组件开发和优化工作; 任职要求: 1. 熟悉Java或者GO,2年以上经验; 2. 具备大数据 on Kubernetes 落地实践经验,熟悉 Docker/Kubernetes 相关生态; 3. 具备 Kubernetes 集群扩缩开发优化经验,具备Operator开发经验; 4. 熟悉公有云大数据产品、大数据生态开源工具和开源引擎,具备二次开发经验的优先 5. 有强烈责任感,具备较强的团队沟通和协作能力,较强的自我驱动能力,具备良好的学习能力;
  • 20k-40k 经验3-5年 / 本科
    人工智能服务 / B轮 / 150-500人
    工作职责: 1. 负责AI训练平台k8s底座部署,升级及日常的维护 2. 负责研发侧cicd持续交付和效率提升 3. 负责多云平台集群管理中心和配置中心研发和维护 4. 关注平台易用性、可扩展性以及前瞻性,跟踪业界趋势与技术选型,持续推进算法平台的规划与演进。 任职资格: 1.本科及以上学历,计算机相关专业。 2.熟练掌握Golang语言。掌握Python语言是plus。 3.熟悉容器技术,熟练掌握kubernetes编排服务框架,熟悉kubernetes底层工作原理。 4、了解kubernetes的nvidia生态,了解nvidia-device-plugin,nvidia-container-runtime等工作原理。 5、有kubernetes平台研发相关项目经验。 6、 较强的责任感与自我驱动能力,较强的学习能力。 【加分项】 1.对深度学习框架tensorflow、Pytorch等其中一种有一定的了解或开发经验者 2.有大规模分布式系统研发,多云技术、云计算平台研发经验者 3.熟悉GPU相关技术或Linux内核者。
  • 20k-30k 经验1-3年 / 不限
    NCS
    IT技术服务|咨询,网络通信 / 不需要融资 / 2000人以上
    Has large scale system setup/deployment experience, Familiar with Shell/Python scripts.
  • 20k-40k·16薪 经验5-10年 / 本科
    硬件 / 上市公司 / 2000人以上
    岗位职责: 1、参与公司容器云平台的技术架构、技术预研,应用推广及落地等; 2、参与容器云平台核心技术问题的攻关,系统优化,协助解决产品/项目开发过程中的技术难题; 3、结合公司业务实际应用,对相关容器平台开源组件进行扩展开发和优化; 4、与团队成员分享经验和新技术,帮助团队不断成长。 任职资格: 1、2-5年软件开发经验,有大型云计算平台架构研发经验优先,有大型云计算产品公司3年以上工作经验者优先; 2、对Docker等容器运行时技术和Linux内核技术(命名空间、文件系统,网络,cgroups等)有一定的理解,有Linux内核开发和调试经验的优先; 3、具备开源容器调度K8S的使用经验和系统集成经验(如监控、日志等系统),具备混合云、多云平台使用经验者优先; 4、熟悉k8s各组件工作原理,具备K8S的Controller、Operator扩展机制的实际开发经验,熟悉K8S源码者优先; 5、了解K8S CSI/CNI/CRI的工作原理,至少进行过其中一种的使用及开发; 6、熟悉使用其中一种语言开发如: Go / Python / C++,精通Go语言优先; 6、较强的团队沟通和协作能力,较强的自我驱动能力。 7、有云原生社区开发贡献者的优先;
  • 15k-23k·13薪 经验5-10年 / 本科
    企业服务,金融 / 不需要融资 / 2000人以上
    岗位职责: 1、负责创新项目系统设计与研发工作; 2、负责相关子系统及业务流程的优化重构,研发过程优化工作; 3、负责项目重点、难点的技术攻坚; 4、负责后端系统核心代码编写和按时交付,保证交付质量和负责版本维护; 岗位要求: 1、计算机相关专业本科以上学历,5年以上工作经验; 2、扎实的编程能力,熟悉算法和数据结构,熟悉计算机的基础理论; 3、扎实的 Java 编程基础,热爱技术钻研,掌握 Java 等后端开发语言; 4、对各种开源的框架,如:Spring、MyBatis、Spring Boot、Spring Cloud、Dubbo、Istio 等有深入的了解,对框架本身有过开发或重构者可优先考虑; 5、具有大规模高并发 Web 应用设计和开发经验优先; 6、熟悉 Redis、Kafka、MariaDB、Mongodb、Hadoop、Spark、Elastic Search 等大数据技术者优先考虑; 7、熟悉 Docker、Kubernetes 等容器云原生技术并有实际使用经验者优先考虑; 8、具有良好的代码编写习惯并具备 DDD 领域驱动设计、面向对象设计等开发思想,有较好的独立主动发现、分析、解决问题的能力;
  • 电商平台 / C轮 / 2000人以上
    岗位职责: -电商场景下的策略平台建设 -电商场景下的流量分发体系建设 岗位要求: -计算机及相关专业本科及以上学历,具有扎实的代码功底,熟悉常用的算法和数据结构 -精通Java语言和框架,熟悉了解Python语言,具有良好的编程习惯,熟悉Linux开发环境,掌握设计模式 -掌握多线程及高性能的设计编码及性能调优,有高并发应用开发经验,对服务治理体系有充分的理解和应用 -熟悉Hadoop/Hive/HBase/Spark/Flink/ES等计算框架,熟悉Docker技术及Kubernetes容器调度系统 -具备推荐系统、广告系统、搜索系统后台开发经验者优先; -具备一定的架构能力,有大容量、高性能、分布式系统的设计开发经验优先; -有广告或者电商场景下的流量分发策略开发经验优先
  • 25k-40k·14薪 经验3-5年 / 本科
    软件服务|咨询 / B轮 / 150-500人
    if (your_passions.includes(‘data’)) { switch(your_stacks) { case ‘Python’: case ‘Scala’: case ‘Natural Language Processing’: console.log(‘Join AfterShip’); break; } } 岗位职责 1、负责海外电商 SaaS 平台的 Product Intelligence 系统设计、开发和优化,赋能推荐、搜索、导购等业务场景; 2、利用 GenAI、深度学习等技术,开发和优化商品分类、属性抽取、销量预测、智能订价等算法,实现对商品信息的全方位理解和分析; 3、与产品、运营等团队紧密合作,理解业务需求,及时掌握和应用最新的业界动态,保持公司在跨境电商 SaaS 领域的技术领先地位。 岗位要求 1、本科及以上学历,三年相关算法工作经验,数学、统计学、计算机、数据挖掘、机器学习等相关专业优先;有英语听说能力,以及海外电商、SaaS 服务工作经验优先; 2、具备较好的数据敏锐度,具有缜密的逻辑思维能力、业务洞察能力、沟通表达能力; 3、具备数据挖掘、机器学习的基础理论和方法,熟悉数据挖掘领域常用算法,如 LR、聚类、W&D/DeepFM/DNN 等常用的深度学习算法; 4、在商品理解、多模态学习、内容理解方面有深入研究以及实践经历,对 GenAI 前沿进展保持关注。 加分项 1、具备开发能力,有使用 Docker、Kubernetes、AWS 或 GCP 云计算经验; 2、有写 Blog 的习惯,活跃技术社区,参与开源项目等; 3、有代码洁癖,对代码精益求精,对技术有极客热情。 为什么加入我们 1、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持; 2、稳健发展:团队稳健扩张,业务规模及营收每年持续稳健增长; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
  • 20k-30k 经验3-5年 / 本科
    金融 / 上市公司 / 2000人以上
    工作职责 1、搭建和维护Kubernetes集群; 2、K8S周边组件开发,包括 CNI、CSI,及各类Operator等; 3、进行容器化平台的开发与维护工作; 4、快速定位并解决系统问题,进行性能调优,提升服务质量。 任职要求 1、3年以上容器相关开发经验,有K8S周边开发经验; 2、熟悉Golang,或至少一类后端编程语言且具备快速转向Golang 的能力; 3、熟悉Docker容器技术,熟悉Kubernetes等主流容器编排平台,熟悉Kubernetes调度器的工作原理; 4、有实际的Kubernetes改进优化经验,熟悉Kubernents的各种扩展机制,可以进行二次开发。 5、较强的团队沟通和协作能力,较强的学习能力和自我驱动能力。
  • 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责机器学习系统资源调度的设计和开发,支持火山方舟大模型平台和机器学习平台的产品业务; 2、负责多机房、多集群环境下的,各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源的最优化编排调度,在严格的多租隔离环境下,支持各种离线训练、在线推理等负载场景的调度需求,并实现整体资源的合理化、最大化利用。 职位要求: 1、熟练掌握Linux环境下的Go/Java/Python等1-2种语言; 2、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架); 4、熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验; 5、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护; 6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动; 8、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。 加分项: 1、有大规模集群在离线资源调度相关工作的实践经验,对K8S/Volcano/Yarn/Mesos等一到多个开源项目的调度实现有源码级的理解,熟悉容器化、轻量级虚拟机等相关技术; 2、熟悉常见调度算法,对多租户Quota治理、抢占、弹性、碎片、潮汐、混部、QoS等一到多个调度问题有深入理解和实践经验,具备较强的解决复杂问题的分析和建模能力,有GPU相关调度经验; 3、有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。
  • 消费生活 / 上市公司 / 2000人以上
    美团平台汇聚美食、外卖、酒店旅游、电影、打车、共享单车、休闲玩乐、美容美发等200多个品类和900万活跃商家,是具有全国影响力的零售科技平台。 我们团队不仅负责美团App的用户增长、大前端技术基础设施建设、公司语音和智能交互技术及产品研发,还承担了多条业务线的产品设计及品牌营销职责,同时整合地图服务部、客户服务和体验部等部门,致力于用科技提升美团数亿消费者、数百万商家、骑手、司机和团长的服务体验。美团平台拥有高并发、多业务的复杂场景,为技术深度优化提供了最佳实践可能。这里有简单、讲逻辑、有爱的团队,更是一块理想的实战场地,舞台广阔,欢迎你来尽情施展。 岗位职责 1、负责优化训练数据,包括利用不同的生成模型合成数据、参与利用 scaling law 设计更合理的数据配比,参与 RLHF 环节。 2、分析数据并为产品提供更好的方向。 3、通过你的工作,我们将通过利用更好的数据实现更优秀的AI模型。 岗位基本需求 1、至少3年以上工作经验,其中包括数据工程方面的经验,比如使用PySpark、Beam或Flink等工具构建大规模数据处理管道的经验。 2、具备使用Elasticsearch和Postgres的经验。 3、熟练掌握Python和SQL。 4、并不会要求你现在精通机器学习方面的专业知识,但熟悉机器学习和自然语言处理(NLP)以及愿意在工作中学习更多知识很重要。 具备以下者优先 1、具备使用 Docker 和 Kubernetes 进行容器化设置的经验。 2、熟悉 PyTorch 岗位亮点 1、获得在业内最前沿的大模型认知和技术积累,包括且不限于对 Scaling law、MoE、RLHF 、Long context 、CharacterAI 等技术方向的全新理解。 2、丰富的数据和GPU资源