-
岗位职责: 1. 负责美团核心交易业务的稳定性保障工作; 2. 参与设计与开发devops工具,包括但不限于容量规划、资源管理、机房容灾、故障分析等; 3. 精细化数据运营,包括可用性指标、历史事故、资源利用率等,挖掘系统薄弱点,落地改进项目; 4. 积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。 岗位基本要求: 1、 计算机相关专业。深入理解Linux系统,精通TCP/IP、HTTP等协议,具备扎实的网络、计算机体系结构方面的知识; 2、 至少熟悉一门编程语言,java/python/go,能开发工具提升效率; 3、 热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力; 4、 工作细致、善于思考,有较强的分析和解决问题的能力; 5、 具备良好的沟通以及协调能力,能独当一面,也擅长团队作战。
-
岗位职责 1、负责线上业务的维护工作,确保线上业务能够7*24正常运行; 2、配合开发进行新项目的部署、上线以及后续的维护工作; 3、深入理解产品的架构, 发现并解决故障隐患及性能瓶颈,参与架构优化、容灾优化、性能优化等项目; 4、配合产品进行日常的升级发布,并且对于升级流程进行优化,提升升级发布的效率; 5、配合制定相关的运维流程,确保业务的稳定性、安全性以及标准性;" 任职要求 "1、本科以上学历,计算机或相关专业,2年及以上Linux运维工作经验,并有100台以上Linux服务器运维经验; 2、具备实际业务运维经验,如WEB、游戏等业务类型的维护,具备nginx的实际使用经验,最好了解业务层面的高可用; 3、具备基本的网络知识,如TCP/IP、HTTP、DNS等等,具备CCNA或者CCNP认证更佳; 4、熟悉CDN行业的主流产品及供应商,具备CDN实际使用经验,能够处理常见的CDN相关问题; 5、熟悉互联网产品基本架构,有互联网产品研发或运维经验者优先; 6、具备极强的责任感,提供7*24小时的服务技术支持,出现问题能够及时响应并且处理;
-
【职位诱惑】 - 腾讯系团队,扁平管理,六险一金; - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设; - 能学习到许多金融、证券行业知识。 【岗位职责】 1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率; 2.参与建设运维工具和平台, 推进运维自动化; 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化; 4.处理告警,使告警得到良好处置; 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移; 6.指导研发更好的使用平台工具。 【职位要求】 1.本科及以上学历, 计算机相关专业, 并有两年以上相关领域工作经验; 2.扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3.熟悉一种或多种编程语言,例如Python/Go/Shell; 4.具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感; 5.具有相关计算/分布式/大数据等系统经验优先(Nginx/Kubernetes/Docker/redis/mysql 等); 6.具有算法思维,良好的数据结构和系统设计的能力者优先。
-
职责描述: 1、负责公司大数据平台的运维保障工作,保障平台的正常运行和相应数据服务的稳定高效; 2、对接数据开发侧团队,主动优化和完善服务巡检、监控工具、脚本等,减少人工操作提高运维效率;负责数据平台的故障处置、推动性能优化。如平台产品技术问题,提交给平台产品技术组进行后台处理,并及时反馈. 3、负责数据平台二线运维支撑保障,响应运维/服务台一线请求:处置生产事件,跟踪问题处理; 4、定期组织团队人员开展大数据平台的技术知识积累和移交; 5、负责设计日常运维相关的自动化工具或系统,并完成相应需求收集和需求管理 ; 任职要求: 1. 具有1年以上金融行业数据类项目运维经验,熟悉保险业务操作与管理。具有大数据平台相关技术进行数据仓库、数据中台开发、维护、优化等项目经验的人员,或长期在类似的运维项目上承担运维工作优先; 2. 具备较强的数据开发分析能力,熟练掌握SQL等技能,熟练掌握大数据平台、UNIX、LUNIX和中间件的技能。有java或Python开发基础优先; 3. 具备较强的数据分析,问题分析,逻辑思维能力,团队协作能力,有良好的沟通能力和责任感,能够承担工作压力,独立分析和解决问题者优先; 4. 强烈的自驱力和责任感,面对复杂业务问题,可以从业务和技术多角度推进,最终达成目标。
-
岗位职责: 1、负责处理系统咨询类、操作类、业务类问题解答和处理; 2、负责系统常见问题和故障的定位和处理; 3、负责中间件,数据库性能的深入分析; 4、负责系统运维手册、应急预案等文档的维护; 5、负责系统日常监控、健康检查、生产应急等; 6、负责投产管理,质控管理及投产上线支持; 7、负责自动化运维,智慧运维的实践和研究; 8、负责运维开发的相关事宜。 职位要求: 1、本科及以上学历;计算机,软件工程等相关专业; 2、了解计算机软硬件、网络、设备等基础设施的基本知识; 3、了解操作系统、数据库、中间件等基础软件基本知识; 4、熟悉Java,python语言,能够编写脚本; 5、了解微服务架构,分布式架构; 6、有较强的沟通协调能力和执行力; 7、具有较好的抗压能力。
-
职位职责: 1、保障公司短视频产品的直播重保平台等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。 职位要求: 1、本科及以上学历,计算机及相关专业; 2、扎实的计算机软件基础知识;了解 Linux 操作系统、存储、网络IO等相关原理; 3、熟悉一种或多种编程语言,例如Python/Go/Java/PHP/C/C++; 4、具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感。
-
岗位职责 1、通过设计及监控可用性,延时等服务整体健康性指标,来运维线上服务 2、负责线上系统的可靠性改进,工作包括主导SLI/SLO制定,监控改进,容量管理,变更管理,应急响应,故障演练,OP改进等各种提升可靠性工作 3、保障云原生/分布式存储/消息中心/注册中心等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 4、负责自如网的核心基础设施架构设计、研发和持续交付 任职要求 1、大学本科及以上学历,3年以上运维工作经验; 2、具有云原生相关组件/分布式存储/消息中心/注册中心等系统运维经验(Nginx/Kubernetes/MQ/ZK/ETCD/Ceph等) 3、熟悉go、python等常用运维开发语言及框架; 4、熟悉主流容器化技术,具备Kubernetes使用经验; 5、有丰富的系统运维经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验; 加分项 1、有自动化构建系统、配置管理、CI/CD系统、监控报警等自动化运维平台建设经验者优先; 2、有ServiceMesh使用维护经验者优先;
-
工作职责: 1、运维保障:通过不断优化技术架构,为业务提供安全、稳定,高效,易用的数据服务能力,支撑业务和数据量的快速扩张; 2、高可用能力保障:沉淀业务保障关键能力,如应急响应、故障恢复,健康巡检,变更管控,日常演练等; 3、自动化能力提升:负责内外部系统的日常管理和运维,利用自动化手段解决运维平台问题,提高其他部门生产力; 4、CI/DC能力提升:维护并改善CI/CD流程, 参与设计 CT (continuous testing) 流程,实现监控告警和故障恢复自动化; 5、运维平台开发&技术调研:CMDB、系统运维自动化平台、自动化业务监控平台、自动化工单系统、Devops平台开发;相关技术调研与文档输出。 任职要求: 1、拥有三年以上的高并发在线服务运维保障经验;拥生产环境Swarm/k8s/nomad 容器管理经验; 2、熟悉Linux (Ubuntu 优先),Python等常用运维工具,有一定的脚步编写能力,熟练使用 bash , 熟悉 sysctl 配置, 了解重要系统指标监控和解读; 3、拥有生产环境使用 Prometheus 、Zabbix经验, 包括部署, 使用和调优;拥有生产环境lvs等流量转发工具、nginx等服务代理或者服务网关等组件运维与自动化经验; 4、有 Kafka,Etcd,Zookeeper,RabbitMQ生产环境部署, 使用和调优经验;具有真实的CMDB、自动化平台、监控平台、工单系统、Devops开发经验; 5、熟练使用阿里云、腾讯云平台和 ELK 平台和相关工具;具有良好的文档编写能力与跨部门沟通能力。
-
if strings.Contains(passions, "coding") { switch techstack { case "Go": fallthrough case "Node.js": fallthrough case "Python": fallthrough case "Kubernetes": fallthrough case "Serverless": fmt.Println("Join AfterShip") } } 岗位职责 1、保障公司业务的稳定,积极解决业务问题;负责公司各类公有云 PaaS、SaaS 产品的维护; 2、通过自研、开源软件二开等手段提升自动化能力,提升运维效率; 3、深入业务架构,结合运维相关的最佳实践,对线上系统进行优化; 4、通过架构优化、工具平台、流程机制建设,持续提升网站稳定性,持续优化云成本; 5、梳理和完善运维文档,沉淀技术经验;参与 On-Call 值班,及时响应处理线上报警等事件。 岗位要求 1、**本科及以上学历,优良的英语书写能力;至少 3 年以上互联网系统的运维经验; 2、熟悉 Linux 操作系统、计算机网络等,基础知识扎实;至少熟练掌握 Shell/Python/Go一种语言; 3、有生产环境下 K8s 的使用和维护经验;熟悉 Prometheus、Grafana 等监控工具; 4、有 GCP、AWS 等国外公有云使用经验优先,比如 GKE、Pub/Sub、Cloud Storage、Dataflow、Cloud Run 等产品; 5、有良好的线上安全意识、学习能力、团队精神和客户意识;有高度的责任感,对于工作积极严谨。 加分项 1、有丰富的 GCP 或 AWS 云平台使用经验; 2、有运维自动化平台或者 API 开发经验。 为什么加入我们 1、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持; 2、稳健发展:团队稳健扩张,业务规模及营收每年持续稳健增长; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
-
岗位职责 1、保障公司业务的稳定、高效运行,快速响应业务需求、积极解决业务问题; 2、深入业务架构,结合运维相关的最佳实践,持续对线上系统进行优化; 3、持续梳理和完善业务运维文档,包括业务架构、监控报警指标、日常操作规范、应急预案等各类文档; 4、推动线上服务稳定性建设,提升服务的可靠性、可扩展性,保障系统 SLA; 5、参与 On-Call 值班,及时响应处理线上报警事件。 岗位要求 1、**本科及以上学历;至少 3 年以上互联网系统的运维经验; 2、熟悉 Linux 操作系统、计算机网络等,基础知识扎实; 3、有生产环境下 K8s 的使用和维护经验; 4、至少熟练掌握 Shell 或 Python 一种脚本语言; 5、具有良好的线上安全意识,有责任感,有良好的的服务意识和团队精神。 加分项 1、有丰富的 GCP 或 AWS 云平台使用经验 ; 2、有优秀的英文听说读写能力。 为什么加入我们 1、高速发展:公司处于快速发展期,规模及营收每年持续快速增长; 2、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持,行业大佬背书; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
-
【岗位职责】 1. 保障业务系统群7*24H高效稳定运行,在此期间对出现的各种问题可以快速定位并解决;在日常工作中不断优化系统架构和部署的合理性,以提升系统服务的稳定性; 2. 负责持续优化运维解决方案,包括但不限于容灾预案、智能调度、弹性扩容、精细化监控等; 3. 参与技术方案和系统设计方案评审,掌握相关的技术架构和原理,能够从运维架构角度主动识别方案风险,并给出专业的解决方案 4. 通过技术手段优化服务架构、性能调优;通过资源优化组合降低成本; 5. 设计并参与开发高效的运维工具,使用机器学习、大模型等方法推进运维AIOPS能力,利用自动化&AI能力落地运维场景下的智能化巡检、智能化监控分析、容量管理等解决方案; 6. 设计并参与开发高效的问题&故障流程,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务;通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具; 7. 架构优化:为了支持业务的不断迭代,需要不断的进行架构优化调整。以确保整个业务系统群能够在功能不断丰富和复杂的条件下,同时保持高可用性; 【任职要求】 1. 本科及以上学历,计算机及相关专业,至少五年以上大型互联网或大型金融机构相关工作经验; 2. 对Linux系统有深入理解,熟悉与理解cgroup、namespace、文件系统、内存管理、进程管理等的原理与机制; 3. 熟悉TCP/IP、HTTP等协议的实现、熟悉CDN、DNS、路由、负载均衡等工作原理与技术实现,具备机房级网络设计能力; 4. 熟练掌握和理解如nginx、lvs、redis、kafka等常见中间件的工作原理、部署和使用; 5. 精通Shell/Perl/Python/GoLang等一种及以上的脚本语言编程,具备实用提升效率; 6. 精通至少一种主流监控体系:Zabbix/Prometheus/Open falcon,具备监控体系的设计与落地能力; 7. 深入理解ITSM服务管理体系、深入理解事件管理、问题管理、变更管理、配置管理等ITIL标准流程体系,并具备一定的实践落地经验; 8. 能针对多个业务或技术领域内的系统群或集群持续优化运维体系和解决方案,包括但不限于容灾预案、成本管控、弹性扩容、精细化监控等; 9. 对于复杂问题的解决有自己的见解,对于问题的识别、优先级分配有见解,善于寻求资源解决问题,能成熟运用目标管理、项目管理等方法,有效控制复杂、多元的工作进程,以终为始地紧扣目标工作,做好过程监控并达成相关任务。
-
岗位职责: 1、负责稿定私有化客户部署、运维实施与技术支持 2、辅助参与私有化部署时相关实施工具研发 3、能够准确地将实施过程中遇到的问题、需求传达给研发&SRE团队,并进行必要的整理和归纳 4、能够较好的服务意识快速响应客户问题和保障客户服务可用性 岗位要求: 1、一年以上运维相关经验,熟练使用Shell脚本,能够独立完成各种运维相关工作,快速高效的处理各种突发事件 2、熟悉 Linux/Unix 系统、网络、硬件等相关知识 3、熟悉Kubernetes基础运维操作,能够基于K8S环境进行环境搭建、服务部署、问题排查 4、具备良好的表达能力,良好的文档编写和方案呈现能力 5、有不错的抗压能力,能够接受中短期出差 6、有企业实施交付经验者优先
-
Duties and responsibilities ● system availability and performance monitoring at both the infrastructure and application levels ● planned infrastructure and application updates ● new environment deployment ● changing existing infrastructure according to requirements ● other tasks related to the system functionality Hiring requirements ● production experience with the following: ○ deploying and supporting servers on Google Cloud Platform (experience with Tencent Cloud will be a plus) ○ Google Kubernetes Engine (RKE will be a plus) ○ preparing automation scenarios using Terraform ● experience with Microsoft Windows Server ● experience with Active Directory ● knowledge of Linux system ● expertise in preparing automation scripts to perform routine tasks using scripting languages (Bash, PowerShell, Python) ● ability to plan new infrastructure requirements and maintain current infrastructure ● understanding of network concepts: firewalls, VPN, peering (for public clouds) Will be a plus: ● knowledge of MS SQL ● knowledge of PostgreSQL
-
职责 1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。 要求 1. 知名互联网企业专注系统稳定性工作三年以上,或从事系统架构师/资深研发工程师五年以上,java研发功底扎实,有大规模在线服务系统架构设计和稳定性保障经验,对如何做好系统稳定性保障有全面深入的理解; 2、喜欢做系统稳定性技术风险专业相关的事情,愿意在这个领域长期发展; 3、乐于挑战业务和技术难题,能够探索新方法新思路,全力以赴拿结果
-
职位描述 1.参与掌阅线上业务全流程的稳定建设,包括架构设计,环境治理,业务容灾等等,保障业务稳定性; 2.参与掌阅线上业务的日常运维以及业务保障,包括版本迭代发布,监控告警治理,紧急事故处理等等,全生命周期保障业务稳定; 3.利用自动化手段解决各类问题,提高全部门的生产力。 职位要求 1.计算机,软件,自动化等相关专业学生,所学课程需要包含Linux,计算机网络等相关课程; 2.接触过 Linux 操作系统,熟悉命令行操作; 3.熟悉一门计算机编程语言,加分项: Python/Golang/shell; 4.熟悉 TCP/IP 协议,加分项:熟悉HTTP 协议; 5.具备快速学习能力、系统化解决问题的能力以及良好的团队合作和沟通能力,以及强烈的责任感; 加分项 1.熟悉git 等源码管理工具 2.接触过 Docker,K8S 3.了解过云服务,不限于阿里云,AWS 等 4.了解一种监控系统及相关应用 5.具有一定的计算机相关文档的英语阅读能力
热门职位