-
岗位职责: (1)负责兴业银行分布式应用开发平台的设计和研发,牵头制定行内相关平台的规范指引; (2)深度参与兴业银行超大型分布式应用的建设。 岗位要求: (1)具备5年以上分布式微服务技术相关工作经验; (2)曾负责或者以骨干身份参与分布式应用开发平台研发建设,并具有超大型分布式系统建设经验; (3)研究过SpringCloud、Dubbo、Sofa等分布式开发框架,有源码重构经验优先; (4)熟悉超大型分布式应用建设时所需的关键技术,如单元化、双活/多活、灰度发布、分布式事务、分布式批量调度等; (5)熟悉超大型分布式系统建设时所需的缓存、注册中心、配置中心、日志、全链路监控等组件; (6)具有大型系统应用上云相关经验; (7)具有大型互联网技术中台的研发和架构经验或者银行分布式核心系统建设经验者优先。 工作地点:上海、福州、成都
-
职位职责: 1、参与面向企业服务的大规模分布式存储产品的设计和开发,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可用性、可扩展性、可维护性等; 3、深入理解业务场景的存储需求,针对性的为不同业务场景提供最合适的存储方案。 职位要求: 1、熟悉分布式存储系统的实现原理,具有相关工作经验; 2、熟悉C/C++/Go/Python中至少一种,对工程质量有很高的自我要求; 3、对分布式存储的一致性、可靠性、高性能、成本优化等方向有深入理解; 4、熟悉对象存储、块存储、文件存储中的一种或多种者优先; 5、对技术有强烈的进取心,具有良好的沟通能力和团队合作精神、优秀的分析问题和解决问题的能力优先。
-
40k-60k·14薪 经验3-5年 / 本科电商平台 / C轮 / 2000人以上【岗位职责】 1、负责大规模服务发现集群设计和开发,满足服务发现核心分布式组件设计、研发、维护,要求在高可靠、高可用、高性能低延时上追求极致; 2、负责多az多活部署方案的实现,提高集群整体的高可用性,提高容灾能力; 3、负责跟进相关技术领域的发展,推动软件架构的相应演进升级。 【岗位要求】 1、3年以上大型分布式注册中心系统设计与开发经验,5年以上大型分布式系统架构设计和开发经验; 2、熟悉etcd和consul,并有二次开发能力; 3、有丰富的大规模分布式系统架构设计与开发经验,熟悉CAP理论、Paxos/Raft算法等; 4、具备优秀的沟通能力和团队协作精神。
-
岗位职责: (1)负责兴业银行分布式应用开发平台的设计、研发、维护工作,参与兴业银行研发规范制定、故障排查、平台安全加固等工作; (2)参与兴业银行重要系统、关键技术能力的建设。 岗位要求: (1)3年以上丰富的工程实践经验;深入理解常见系统架构模型,具备大规模分布式系统建设经验; (2)熟悉SpringCloud、SOFA、ServiceComb、Dubbo等分布式开发框架,具备源码项目实践经验; (3)深入研究过Netty、JVM内部运行机制,具备丰富的故障定位能力; (4)具备应用网关、分布式事务、批量作业、分布式锁、分库分表、分布式id、服务编排等分布式关键技术解决方案设计和实现能力; (5)了解大规模分布式系统关键技术能力,如系统单元化、双活/多活、全链路灰度发布等; (6)在复杂系统架构和功能实现场景中,具备技术抽象能力,能够提取通用技术组件并不断持续优化。 符合以下一项或多项条件者优先: (1)曾负责或深度参与大中型金融或互联网企业的开发平台建设者; (2)曾负责或深度参与大中型金融核心系统相关建设者; (3)对ServiceMesh落地、云原生相关技术、Go语言熟练使用相关经验者; (4)具有大型互联网技术及中台的研发和架构经验优先; (5)对技术有追求,对知名开源组件有重要贡献或在开源社区有相关优秀作品者。 工作地点:上海、福州、成都
-
工作职责 1、参与平安云分布式存储建设工作,保证生产系统稳定运行; 2、熟悉常见的云存储产品功能、特点,参与云存储产品规划,思考并提出建议; 3、参与云存储系统核心功能的设计、开发工作; 4、保证云存储生产运行中的系统稳定运行,了解其运行情况,对问题及时进行诊断及解决; 5、与关联系统团队保持良好沟通及协作,保证各项工作稳定开展。 任职要求 1、熟悉Linux环境编程, 具有3年以上的后台开发经验 ; 2、掌握基础网络协议(TCP、HTTP等)知识,熟悉网络编程和网络服务框架等; 3、具有扎实的编程基础,熟练掌握至少一门语言c/c++/python/go/java,如无go语言经验,愿意转go; 4、追求高品质代码,对工程质量有深刻认识, 注重模块化、单元测试、异常测试; 5、熟练掌握常用数据结构和算法,熟悉多线程编程技术,熟悉分布式协议(如Paxos/Raft/Zab等) ; 6、有较强的学习能力,有强烈的求知欲和进取心,能及时关注和学习业界最新技术。 满足以下条件者优先: 1、有大规模对象、文件、块存储或数据库等项目相关经验; 2、有Ceph开发运维经验; 3、熟悉以下任一开源存储系统源码:beegfs、ZFS、TiKV,Redis、HDFS、LevelDB、RocksDB、Mysql、MongoDB等; 4、熟悉Linux下 I/O协议栈; 5、具有内核,操作系统相关开发经验。
-
30k-50k·14薪 经验5-10年 / 本科电商平台 / C轮 / 2000人以上一、缓存方向: 【岗位职责】 1.负责设计和实现分布式通用KV系统,满足SHEIN场景的大并发、低延迟和低成本要求。技术上在高并发,低延迟和高可用上追求极致; 2.参与电商系统的架构设计,提出合理的缓存方案和应用策略并落地; 3.负责双机房互为主备,多机房单元化等不同部署方案的实现,提高集群整体的高可用性,提高容灾能力; 4.负责跟进新硬件和相关技术领域的发展,推动软件架构的相应演进升级。 【岗位要求】 1.3年以上大型分布式系统或高性能缓存服务的设计与研发经验; 2.熟悉redis/memcached/levelDB/rocksDB的一项或多项,并有二次开发能力; 3.有丰富的大规模分布式集群开发经验,熟悉CAP理论、Paxos/Raft算法等; 具备优秀的沟通能力和团队协作精神。 二、检索服务方向: 【岗位描述】 1.负责电商搜索数据库架构设计,打造高性能、高可用、可扩展的架构,支撑业务快速发展; 2.负责高并发搜索引擎的全链路架构,优化搜索引擎的计算和存储性能; 3.负责系统规划和建设,并推动在搜索、核心业务复杂搜索场景落地。 【岗位要求】 1. 熟练掌握Java/C++等开发语言,有系统级性能调优经验; 2. 熟悉Redis/HBase/MongoDB/ElasticSearch/Spark/Flink等,具有任一框架优化经验者更佳; 3. 有良好的可靠性意识,包括不限于监控、容灾等。 4. 加分项: 对搜索业务/ 推荐业务/电商业务有深入了解。 三、消息方向: 【岗位描述】 1.负责SHEIN中间件消息队列产品的系统建设,架构设计,方案规划和需求落地工作; 2.根据业务要求,完成中间件消息队列产品的迭代实施和产品优化工作; 3.指导消息队列中间件产品在业务场景下的技术落地和落地实施工作; 【岗位要求】 1.熟悉开源消息队列Kafka/Pulsar/RocketMQ/RabbitMQ等,有相关开发经验者优先; 2.熟悉CAP理论、Paxos/Raft算法、高可用架构、分布式事务等,有一定实践经验者优先; 3.有MQ开源社区相关贡献或工作经验者优先; 4.了解或熟悉一种分布式流计算框架的应用场景和关键技术,例如Spark/Flink/Kafka Streams/Apache Samza等,有相关研发经验者优先; 5.有技术热情和较强的学习能力,有良好的分析解决问题和技术攻关能力。
-
工作内容: 1. 分布式存储 ceph(或其他)的部署、运维、突发故障排查、性能优化; 2. 在私有机房环境部署新集群,需要偶尔出差; 3. 输出运维技术文档。 任职要求: 1. 本科及以上学历; 2. 对 Linux 系统熟悉,能编写 Shell 脚本,至少熟悉一门脚本语言(Python/其他); 3. 有构件并维护生产环境 ceph 的工作经验; 4. 对操作系统、硬件有一定的理解,有能力发现和处理集群在运行过程中遇到的问题; 5. 优秀的学习能力,愿意接触新知识、新技术。 ## 加分项: 1. 有 Kubernetes 生产环境维护管理经验,熟练使用 Kubernetes,熟知 Kubernetes 生态; 2. 有生产环境混合云配置与管理经验; 3. 有机房高可用网络环境配置与管理经验; 4. 对 GPU 设备有所了解,构建过针对机器学习场景的平台。
-
职位描述 1. 负责带领团队建设大模型分布式系统研发体系和多GPU优化技术体系,跟踪和探索面向大模型的分布式优化技术新趋势; 2. 负责组织进行软件的设计和开发,对多GPU(同一节点和跨网络多节点)通信性能优化; 职位要求 1. 研究生及以上学历,计算机/电子相关专业优先,5年(博士3年)以上分布式系统优化经验; 2. 熟悉计算机体系架构、分布式并行计算和异构计算框架,具备OpenMPI, OpenSHEM, MPICH 等相关知识及支持库(NCCL,UCX, etc.)和经验者优先; 3. 具备芯片互联和网络传输编程相关知识,例如RDMA,PCIE Peer2Peer, GPU Direct等经验者优先; 4. 熟练掌握深度学习分布式优化方法,有大模型训练和推理优化经验者优先; 5. 统筹协调能力强,有大型系统开发团队管理经验优先。
-
职位描述 1. 负责大模型分布式系统和多GPU优化系统研发,探索面向大模型的分布式优化新技术; 2. 负责分布式系统软件的设计和开发,提升多GPU(同一节点和跨网络多节点)高性能网络通信性能; 职位要求 1、本科及以上学历,计算机/电子相关专业优先,至少2年分布式、通信系统优化经验; 2、熟练掌握C、C++、Go等一种或多种编程语言,熟悉计算机体系架构、分布式并行计算和异构计算框架; 3、熟悉OpenMPI, OpenSHEM, MPICH,NCCL,UCX等一种或多种分布式通信软件者优先; 4、了解RDMA,PCIE Peer2Peer, GPU Direct等芯片互联和网络传输编程相关知识者优先; 5、了解常见的深度学习分布式优化方法者优先;
-
岗位职责: 1、负责管理分布式光伏电站项目建设以及相关的沟通协调工作, 能独立完成或指导技术支持完成项目现场施工勘察直至竣工管理的工作; 2、实施项目成本控制; 3、配合技术部门完成项目技术方案设计,与客户进行前期沟通工作; 4、独立完成现场与项目方相关部门、监理的协调工作;严格实施公司关于现场管理的相关规定,做好项目范围、工程量、材料、施工计划、工期、施工质量、施工安全、人员组织等的管理 任职要求: 1、熟悉强弱电等设备的安装、调试、维护、操作等相关标准规范及施工工艺,能独立进行现场施工操作、指导; 2、能够对工前、过程、验收及现场进行有效的组织和实施,并可进行技术指导;3、 能够独立进行工程项目的管理和实施,有较强的现场组织、沟通和协调能力;4、 责任心强,有团队合作精神; 5、 具备相关项目的管理经验,有地面电站、渔光互补电站项目管理经验者优先;有三年以上相关工作经验或相关执业资格证书(一建、二建)者优先。
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
云存储/分布式存储研发工程师 岗位职责: 1、负责分布式存储平台的研发建设工作,包括对象存储/块存储/文件存储等系统的开发、优化; 2、持续推动公司存储技术栈的优化和演进、支撑业务在存储端的各类需求; 3、负责部分运维任务,高效定位,分析和解决线上问题; 岗位要求: 1、重点本科及以上学历,计算机相关专业; 2、2年及以上云存储相关工作经验; 3、熟练掌握GO/JAVA等语言进行开发(至少熟练掌握一种); 4、有扎实的算法基础,能灵活应用各种常见的数据结构; 5、熟悉操作系统原理、Linux IO性能调优方法; 6、熟悉分布式系统的设计和应用,了解分布式常用技术原理 ; 7、熟悉一业界主流分布式存储产品,如AWS-S3、CEPH,HDFS,HBASE等; 8、有对象存储,块存储,NOSQL存储或其他大规模
-
plan1956-大规模分布式机器学习系统工程师
[北京·北下关] 2023-07-1770k-80k 经验在校/应届 / 硕士人工智能服务,IT技术服务|咨询 / D轮及以上 / 500-2000人工作职责: 1.设计并实现创新的机器学习解决方案,并将其应用到大规模分布式机器学习系统中。 2.适配最新的机器学习算法与架构,深入主流的机器学习框架,对框架进行调整、改进和优化。 3.研究核心技术突破点,在模型并行、数据-计算结合等方面打造机器学习系统性能与易用性优势。 4.对服务整体稳定性负责,分析并深入发现系统风险点,提高系统服务在各种风险下的容错能力。 任职要求: 1.有比较扎实的计算机理论基础,熟练使用C/C++编程,对数据结构和算法有较为深刻的理解。 2.具有快速学习的能力,有灵活应用开源项目的经验。 3.具备英文文档阅读分析能力,良好的沟通能力和团队协作能力。 4.对技术有执着的追求和热爱,并对新技术持有敏感性并愿意致力于新技术的探索和研究,对解决具有挑战性问题充满激情。 加分项: 1.深入了解业界主流机器学习框架如Pytorch/Tensorflow/Mxnet等中至少一种,社区核心贡献者优先。 2.在异构计算或并行计算系统开发方面有丰富经验,如CUDA,OpenCL,OpenMP,MPI等,并能有效利用这些技术进行高效计算优化。 3.有成熟的大规模分布式机器学习系统设计与实施经验,例如对Megatron-Deepspeed、Colossal-ai等有深入理解和实践。 4.在OSDI/SOSP等**会议或期刊上发表过相关领域的论文。 5.对分布式系统中的容错、一致性、并发性和安全性等问题有深入的理解,并能应用如ZooKeeper、Etcd等工具进行处理。 6.深入了解 YARN、Kubernetes、Hadoop、Spark、Flink、Horovod等系统和生态,在社区有过相关代码贡献者优先。 工作地点:北京、上海、深圳、新加坡; -
工作职责 1.参与主流机器学习框架与摩尔线程软硬件栈的对接,模型优化和部署; 2.参与机器学习单GPU以及分布式训练技术的研究与实现,如各种并行与异构计算技术的设计、开发以及与性能优化; 3.参与研究并实现适合摩尔线程自研GPU的模型优化和压缩方法。 任职资格 1.熟悉Linux开发环境,精通C++和Python,具备良好扎实的算法基础、良好的编程风格和系统设计能力; 2.深入理解典型的深度学习算法(如CV和NLP模型),主流深度框架(如TensorFlow、PyTorch、MxNet、Caffe、PaddlePaddle等)开发或优化经验; 3.或有深度学习编译器(如XLA、TVM、Glow、NGraph)等软件栈的开发经验; 4.精通分布式训练技术,有参数服务器、多维并行、显存交换等技术的深入研究与开发者可优先考虑; 5.有机器学习模型性能调优和模型压缩(量化、剪枝、蒸馏、NAS等)经验者可优先考虑; 6.精通并行计算通信库(如MPI),有丰富的CUDA并行编程和典型机器学习算子开发经验者可优先考虑; 7.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力。