-
职位职责: 1、负责字节跳动数据中心网络P4网关产品交付和线上运维工作,提供超大集群网关服务能力和保证线上稳定运行; 2、负责网关类产品稳定性方案设计和能力建设,包括监控、告警、应急响应、运维数据分析,风险治理等; 3、负责网关类产品运维流程和规划的制定和优化,持续提升交付、变更、运维效率。 职位要求: 1、计算机相关专业,本科以上学历,具备扎实的计算机体系知识; 2、熟悉常见网络协议,比如TCP/IP、BGP、VXLAN、GRE等; 3、熟悉VPC、负载均衡、云企业网、专线连接等公有云网络产品优先; 4、具备良好的现网意识,持续提升现网的稳定性,有运维或稳定性相关经验优先; 5、具备良好的沟通表达能力和团队合作意识,责任心强,有较强的自我驱动能力; 6、掌握Golang、C++、Python等开发语言中的一门。
-
职位职责: 1、保障公司短视频产品的直播重保平台等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。 职位要求: 1、本科及以上学历,计算机及相关专业; 2、扎实的计算机软件基础知识;了解 Linux 操作系统、存储、网络IO等相关原理; 3、熟悉一种或多种编程语言,例如Python/Go/Java/PHP/C/C++; 4、具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感。
-
岗位职责 1、负责线上业务的维护工作,确保线上业务能够7*24正常运行; 2、配合开发进行新项目的部署、上线以及后续的维护工作; 3、深入理解产品的架构, 发现并解决故障隐患及性能瓶颈,参与架构优化、容灾优化、性能优化等项目; 4、配合产品进行日常的升级发布,并且对于升级流程进行优化,提升升级发布的效率; 5、配合制定相关的运维流程,确保业务的稳定性、安全性以及标准性;" 任职要求 "1、本科以上学历,计算机或相关专业,2年及以上Linux运维工作经验,并有100台以上Linux服务器运维经验; 2、具备实际业务运维经验,如WEB、游戏等业务类型的维护,具备nginx的实际使用经验,最好了解业务层面的高可用; 3、具备基本的网络知识,如TCP/IP、HTTP、DNS等等,具备CCNA或者CCNP认证更佳; 4、熟悉CDN行业的主流产品及供应商,具备CDN实际使用经验,能够处理常见的CDN相关问题; 5、熟悉互联网产品基本架构,有互联网产品研发或运维经验者优先; 6、具备极强的责任感,提供7*24小时的服务技术支持,出现问题能够及时响应并且处理;
-
岗位职责: 1. 负责美团核心交易业务的稳定性保障工作; 2. 参与设计与开发devops工具,包括但不限于容量规划、资源管理、机房容灾、故障分析等; 3. 精细化数据运营,包括可用性指标、历史事故、资源利用率等,挖掘系统薄弱点,落地改进项目; 4. 积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。 岗位基本要求: 1、 计算机相关专业。深入理解Linux系统,精通TCP/IP、HTTP等协议,具备扎实的网络、计算机体系结构方面的知识; 2、 至少熟悉一门编程语言,java/python/go,能开发工具提升效率; 3、 热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力; 4、 工作细致、善于思考,有较强的分析和解决问题的能力; 5、 具备良好的沟通以及协调能力,能独当一面,也擅长团队作战。
-
职位描述 1、保障大数据相关计算和存储等核心系统的高可用,同时关注系统容量与稳定性; 2、深化系统可观测能力,提升监控智能化,帮助系统开发&团队快速定位故障; 3、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA; 4、构建自动化运维方案,参与设计、实现能够保障线上大规模集群快速迭代和自动化管理的大数据运维平台; 5、提升大数据基础设施的资源利用率合理化,成本治理和分摊; 职位要求 1、本科以上学历, 计算机相关专业, 并有3年以上相关大数据SRE工作经验; 2、扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3、熟悉一种或多种编程语言,例如 Go/Java/Shell; 4、具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感; 5、熟悉Docker、K8S等容器化与云原生技术的架构与原理,对于常见的故障与问题有实践经验,具有分布式/大数据等系统经验优先(Hadoop/Spark/Flink 等);有腾讯云、aws等多云运维经验更佳! 6、具有算法思维,良好的数据结构和系统设计的能力者优先;
-
职责描述: 1、负责公司大数据平台的运维保障工作,保障平台的正常运行和相应数据服务的稳定高效; 2、对接数据开发侧团队,主动优化和完善服务巡检、监控工具、脚本等,减少人工操作提高运维效率;负责数据平台的故障处置、推动性能优化。如平台产品技术问题,提交给平台产品技术组进行后台处理,并及时反馈. 3、负责数据平台二线运维支撑保障,响应运维/服务台一线请求:处置生产事件,跟踪问题处理; 4、定期组织团队人员开展大数据平台的技术知识积累和移交; 5、负责设计日常运维相关的自动化工具或系统,并完成相应需求收集和需求管理 ; 任职要求: 1. 具有1年以上金融行业数据类项目运维经验,熟悉保险业务操作与管理。具有大数据平台相关技术进行数据仓库、数据中台开发、维护、优化等项目经验的人员,或长期在类似的运维项目上承担运维工作优先; 2. 具备较强的数据开发分析能力,熟练掌握SQL等技能,熟练掌握大数据平台、UNIX、LUNIX和中间件的技能。有java或Python开发基础优先; 3. 具备较强的数据分析,问题分析,逻辑思维能力,团队协作能力,有良好的沟通能力和责任感,能够承担工作压力,独立分析和解决问题者优先; 4. 强烈的自驱力和责任感,面对复杂业务问题,可以从业务和技术多角度推进,最终达成目标。
-
【职位诱惑】 - 腾讯系团队,扁平管理,六险一金; - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设; - 能学习到许多金融、证券行业知识。 【岗位职责】 1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率; 2.参与建设运维工具和平台, 推进运维自动化; 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化; 4.处理告警,使告警得到良好处置; 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移; 6.指导研发更好的使用平台工具。 【职位要求】 1.本科及以上学历, 计算机相关专业, 并有两年以上相关领域工作经验; 2.扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3.熟悉一种或多种编程语言,例如Python/Go/Shell; 4.具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感; 5.具有相关计算/分布式/大数据等系统经验优先(Nginx/Kubernetes/Docker/redis/mysql 等); 6.具有算法思维,良好的数据结构和系统设计的能力者优先。
-
岗位职责: 1、负责处理系统咨询类、操作类、业务类问题解答和处理; 2、负责系统常见问题和故障的定位和处理; 3、负责中间件,数据库性能的深入分析; 4、负责系统运维手册、应急预案等文档的维护; 5、负责系统日常监控、健康检查、生产应急等; 6、负责投产管理,质控管理及投产上线支持; 7、负责自动化运维,智慧运维的实践和研究; 8、负责运维开发的相关事宜。 职位要求: 1、本科及以上学历;计算机,软件工程等相关专业; 2、了解计算机软硬件、网络、设备等基础设施的基本知识; 3、了解操作系统、数据库、中间件等基础软件基本知识; 4、熟悉Java,python语言,能够编写脚本; 5、了解微服务架构,分布式架构; 6、有较强的沟通协调能力和执行力; 7、具有较好的抗压能力。
-
岗位职责 1、通过设计及监控可用性,延时等服务整体健康性指标,来运维线上服务 2、负责线上系统的可靠性改进,工作包括主导SLI/SLO制定,监控改进,容量管理,变更管理,应急响应,故障演练,OP改进等各种提升可靠性工作 3、保障云原生/分布式存储/消息中心/注册中心等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 4、负责自如网的核心基础设施架构设计、研发和持续交付 任职要求 1、大学本科及以上学历,3年以上运维工作经验; 2、具有云原生相关组件/分布式存储/消息中心/注册中心等系统运维经验(Nginx/Kubernetes/MQ/ZK/ETCD/Ceph等) 3、熟悉go、python等常用运维开发语言及框架; 4、熟悉主流容器化技术,具备Kubernetes使用经验; 5、有丰富的系统运维经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验; 加分项 1、有自动化构建系统、配置管理、CI/CD系统、监控报警等自动化运维平台建设经验者优先; 2、有ServiceMesh使用维护经验者优先;
-
工作职责: 1、运维保障:通过不断优化技术架构,为业务提供安全、稳定,高效,易用的数据服务能力,支撑业务和数据量的快速扩张; 2、高可用能力保障:沉淀业务保障关键能力,如应急响应、故障恢复,健康巡检,变更管控,日常演练等; 3、自动化能力提升:负责内外部系统的日常管理和运维,利用自动化手段解决运维平台问题,提高其他部门生产力; 4、CI/DC能力提升:维护并改善CI/CD流程, 参与设计 CT (continuous testing) 流程,实现监控告警和故障恢复自动化; 5、运维平台开发&技术调研:CMDB、系统运维自动化平台、自动化业务监控平台、自动化工单系统、Devops平台开发;相关技术调研与文档输出。 任职要求: 1、拥有三年以上的高并发在线服务运维保障经验;拥生产环境Swarm/k8s/nomad 容器管理经验; 2、熟悉Linux (Ubuntu 优先),Python等常用运维工具,有一定的脚步编写能力,熟练使用 bash , 熟悉 sysctl 配置, 了解重要系统指标监控和解读; 3、拥有生产环境使用 Prometheus 、Zabbix经验, 包括部署, 使用和调优;拥有生产环境lvs等流量转发工具、nginx等服务代理或者服务网关等组件运维与自动化经验; 4、有 Kafka,Etcd,Zookeeper,RabbitMQ生产环境部署, 使用和调优经验;具有真实的CMDB、自动化平台、监控平台、工单系统、Devops开发经验; 5、熟练使用阿里云、腾讯云平台和 ELK 平台和相关工具;具有良好的文档编写能力与跨部门沟通能力。
-
if strings.Contains(passions, "coding") { switch techstack { case "Go": fallthrough case "Node.js": fallthrough case "Python": fallthrough case "Kubernetes": fallthrough case "Serverless": fmt.Println("Join AfterShip") } } 岗位职责 1、保障公司业务的稳定,积极解决业务问题;负责公司各类公有云 PaaS、SaaS 产品的维护; 2、通过自研、开源软件二开等手段提升自动化能力,提升运维效率; 3、深入业务架构,结合运维相关的最佳实践,对线上系统进行优化; 4、通过架构优化、工具平台、流程机制建设,持续提升网站稳定性,持续优化云成本; 5、梳理和完善运维文档,沉淀技术经验;参与 On-Call 值班,及时响应处理线上报警等事件。 岗位要求 1、本科及以上学历,良好的英语书写能力;至少 3 年以上互联网系统的运维经验; 2、熟悉 Linux 操作系统、计算机网络等,基础知识扎实;至少熟练掌握 Shell/Python/Go一种语言; 3、有生产环境下 K8s 的使用和维护经验;熟悉 Prometheus、Grafana 等监控工具; 4、有 GCP、AWS 等国外公有云使用经验优先,比如 GKE、Pub/Sub、Cloud Storage、Dataflow、Cloud Run 等产品; 5、有良好的线上安全意识、学习能力、团队精神和客户意识;有高度的责任感,对于工作积极严谨。 加分项 1、有丰富的 GCP 或 AWS 云平台使用经验; 2、有运维自动化平台或者 API 开发经验。 为什么加入我们 1、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持; 2、稳健发展:团队稳健扩张,业务规模及营收每年持续稳健增长; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
-
岗位职责 1. 数据库稳定性保障 & 运维自动化 负责 AWS 及 ByteHouse(类似 ClickHouse) 数据库的部署、监控和优化 设计并优化 数据库备份和恢复策略,确保数据安全性 参与 数据库容量规划、资源调优,提升查询性能 2. 监控 & 预警系统建设 负责数据库、存储系统、数据管道 的监控系统开发 搭建Prometheus + Grafana 监控 MySQL、ByteHouse、ETL 任务 设计数据库健康检查(慢查询、锁分析、性能瓶颈)并自动化分析告警 维护日志采集与分析系统(ELK、Loki、OpenTelemetry) 3. 数据库 CI/CD & 自动化运维 参与数据库平台 CI/CD 流水线,支持 MySQL 在 AWS 上的自动化部署 二次开发自动化 SQL 审计工具,规范 SQL 变更流程,减少人为误操作风险 开发自愈脚本,自动化修复常见数据库异常(如连接数过高、磁盘爆满) 岗位要求 必备技能: 1、熟悉 Linux 及 Shell 脚本开发,有一定的 Python / Go / Java 开发能力 2、具备 Kubernetes + AWS 经验,能够管理数据库在云上的容器化部署 3、熟悉 Prometheus + Grafana,有数据库监控与告警体系建设经验 4、熟练掌握 MySQL 及数据库优化(索引、分区、慢查询优化) 5、熟悉 数据库高可用方案(MGR、主从复制、ProxySQL、TiDB 经验加分) 加分项: 1、有ClickHouse / ByteHouse 经验,熟悉列式存储优化 2、有数据库安全(数据加密、访问控制、合规审计)经验 3、了解 Flink / Kafka,能优化数据库与流式数据的对接
-
Duties and responsibilities ● system availability and performance monitoring at both the infrastructure and application levels ● planned infrastructure and application updates ● new environment deployment ● changing existing infrastructure according to requirements ● other tasks related to the system functionality Hiring requirements ● production experience with the following: ○ deploying and supporting servers on Google Cloud Platform (experience with Tencent Cloud will be a plus) ○ Google Kubernetes Engine (RKE will be a plus) ○ preparing automation scenarios using Terraform ● experience with Microsoft Windows Server ● experience with Active Directory ● knowledge of Linux system ● expertise in preparing automation scripts to perform routine tasks using scripting languages (Bash, PowerShell, Python) ● ability to plan new infrastructure requirements and maintain current infrastructure ● understanding of network concepts: firewalls, VPN, peering (for public clouds) Will be a plus: ● knowledge of MS SQL ● knowledge of PostgreSQL
-
职责 1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。 要求 1. 知名互联网企业专注系统稳定性工作三年以上,或从事系统架构师/资深研发工程师五年以上,java研发功底扎实,有大规模在线服务系统架构设计和稳定性保障经验,对如何做好系统稳定性保障有全面深入的理解; 2、喜欢做系统稳定性技术风险专业相关的事情,愿意在这个领域长期发展; 3、乐于挑战业务和技术难题,能够探索新方法新思路,全力以赴拿结果
-
职位描述 1.参与掌阅线上业务全流程的稳定建设,包括架构设计,环境治理,业务容灾等等,保障业务稳定性; 2.参与掌阅线上业务的日常运维以及业务保障,包括版本迭代发布,监控告警治理,紧急事故处理等等,全生命周期保障业务稳定; 3.利用自动化手段解决各类问题,提高全部门的生产力。 职位要求 1.计算机,软件,自动化等相关专业学生,所学课程需要包含Linux,计算机网络等相关课程; 2.接触过 Linux 操作系统,熟悉命令行操作; 3.熟悉一门计算机编程语言,加分项: Python/Golang/shell; 4.熟悉 TCP/IP 协议,加分项:熟悉HTTP 协议; 5.具备快速学习能力、系统化解决问题的能力以及良好的团队合作和沟通能力,以及强烈的责任感; 加分项 1.熟悉git 等源码管理工具 2.接触过 Docker,K8S 3.了解过云服务,不限于阿里云,AWS 等 4.了解一种监控系统及相关应用 5.具有一定的计算机相关文档的英语阅读能力