-
【职位诱惑】 - 腾讯系团队,扁平管理,六险一金; - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设; - 能学习到许多金融、证券行业知识。 【岗位职责】 1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率; 2.参与建设运维工具和平台, 推进运维自动化; 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化; 4.处理告警,使告警得到良好处置; 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移; 6.指导研发更好的使用平台工具。 【职位要求】 1.本科及以上学历, 计算机相关专业, 并有两年以上相关领域工作经验; 2.扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3.熟悉一种或多种编程语言,例如Python/Go/Shell; 4.具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感; 5.具有相关计算/分布式/大数据等系统经验优先(Nginx/Kubernetes/Docker/redis/mysql 等); 6.具有算法思维,良好的数据结构和系统设计的能力者优先。
-
岗位职责: 1. 负责美团核心交易业务的稳定性保障工作; 2. 参与设计与开发devops工具,包括但不限于容量规划、资源管理、机房容灾、故障分析等; 3. 精细化数据运营,包括可用性指标、历史事故、资源利用率等,挖掘系统薄弱点,落地改进项目; 4. 积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。 岗位基本要求: 1、 计算机相关专业。深入理解Linux系统,精通TCP/IP、HTTP等协议,具备扎实的网络、计算机体系结构方面的知识; 2、 至少熟悉一门编程语言,java/python/go,能开发工具提升效率; 3、 热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力; 4、 工作细致、善于思考,有较强的分析和解决问题的能力; 5、 具备良好的沟通以及协调能力,能独当一面,也擅长团队作战。
-
职责描述: 1、负责公司大数据平台的运维保障工作,保障平台的正常运行和相应数据服务的稳定高效; 2、对接数据开发侧团队,主动优化和完善服务巡检、监控工具、脚本等,减少人工操作提高运维效率;负责数据平台的故障处置、推动性能优化。如平台产品技术问题,提交给平台产品技术组进行后台处理,并及时反馈. 3、负责数据平台二线运维支撑保障,响应运维/服务台一线请求:处置生产事件,跟踪问题处理; 4、定期组织团队人员开展大数据平台的技术知识积累和移交; 5、负责设计日常运维相关的自动化工具或系统,并完成相应需求收集和需求管理 ; 任职要求: 1. 具有1年以上金融行业数据类项目运维经验,熟悉保险业务操作与管理。具有大数据平台相关技术进行数据仓库、数据中台开发、维护、优化等项目经验的人员,或长期在类似的运维项目上承担运维工作优先; 2. 具备较强的数据开发分析能力,熟练掌握SQL等技能,熟练掌握大数据平台、UNIX、LUNIX和中间件的技能。有java或Python开发基础优先; 3. 具备较强的数据分析,问题分析,逻辑思维能力,团队协作能力,有良好的沟通能力和责任感,能够承担工作压力,独立分析和解决问题者优先; 4. 强烈的自驱力和责任感,面对复杂业务问题,可以从业务和技术多角度推进,最终达成目标。
-
【岗位职责】 1. 保障业务系统群7*24H高效稳定运行,在此期间对出现的各种问题可以快速定位并解决;在日常工作中不断优化系统架构和部署的合理性,以提升系统服务的稳定性; 2. 负责持续优化运维解决方案,包括但不限于容灾预案、智能调度、弹性扩容、精细化监控等; 3. 参与技术方案和系统设计方案评审,掌握相关的技术架构和原理,能够从运维架构角度主动识别方案风险,并给出专业的解决方案 4. 通过技术手段优化服务架构、性能调优;通过资源优化组合降低成本; 5. 设计并参与开发高效的运维工具,使用机器学习、大模型等方法推进运维AIOPS能力,利用自动化&AI能力落地运维场景下的智能化巡检、智能化监控分析、容量管理等解决方案; 6. 设计并参与开发高效的问题&故障流程,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务;通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具; 7. 架构优化:为了支持业务的不断迭代,需要不断的进行架构优化调整。以确保整个业务系统群能够在功能不断丰富和复杂的条件下,同时保持高可用性; 【任职要求】 1. 本科及以上学历,计算机及相关专业,至少五年以上大型互联网或大型金融机构相关工作经验; 2. 对Linux系统有深入理解,熟悉与理解cgroup、namespace、文件系统、内存管理、进程管理等的原理与机制; 3. 熟悉TCP/IP、HTTP等协议的实现、熟悉CDN、DNS、路由、负载均衡等工作原理与技术实现,具备机房级网络设计能力; 4. 熟练掌握和理解如nginx、lvs、redis、kafka等常见中间件的工作原理、部署和使用; 5. 精通Shell/Perl/Python/GoLang等一种及以上的脚本语言编程,具备实用提升效率; 6. 精通至少一种主流监控体系:Zabbix/Prometheus/Open falcon,具备监控体系的设计与落地能力; 7. 深入理解ITSM服务管理体系、深入理解事件管理、问题管理、变更管理、配置管理等ITIL标准流程体系,并具备一定的实践落地经验; 8. 能针对多个业务或技术领域内的系统群或集群持续优化运维体系和解决方案,包括但不限于容灾预案、成本管控、弹性扩容、精细化监控等; 9. 对于复杂问题的解决有自己的见解,对于问题的识别、优先级分配有见解,善于寻求资源解决问题,能成熟运用目标管理、项目管理等方法,有效控制复杂、多元的工作进程,以终为始地紧扣目标工作,做好过程监控并达成相关任务。
-
岗位职责: 1、负责处理系统咨询类、操作类、业务类问题解答和处理; 2、负责系统常见问题和故障的定位和处理; 3、负责中间件,数据库性能的深入分析; 4、负责系统运维手册、应急预案等文档的维护; 5、负责系统日常监控、健康检查、生产应急等; 6、负责投产管理,质控管理及投产上线支持; 7、负责自动化运维,智慧运维的实践和研究; 8、负责运维开发的相关事宜。 职位要求: 1、本科及以上学历;计算机,软件工程等相关专业; 2、了解计算机软硬件、网络、设备等基础设施的基本知识; 3、了解操作系统、数据库、中间件等基础软件基本知识; 4、熟悉Java,python语言,能够编写脚本; 5、了解微服务架构,分布式架构; 6、有较强的沟通协调能力和执行力; 7、具有较好的抗压能力。
-
职位职责: 1、保障公司短视频产品的直播重保平台等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。 职位要求: 1、本科及以上学历,计算机及相关专业; 2、扎实的计算机软件基础知识;了解 Linux 操作系统、存储、网络IO等相关原理; 3、熟悉一种或多种编程语言,例如Python/Go/Java/PHP/C/C++; 4、具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感。
-
岗位职责 1、通过设计及监控可用性,延时等服务整体健康性指标,来运维线上服务 2、负责线上系统的可靠性改进,工作包括主导SLI/SLO制定,监控改进,容量管理,变更管理,应急响应,故障演练,OP改进等各种提升可靠性工作 3、保障云原生/分布式存储/消息中心/注册中心等多个核心系统的可靠性与正常运行,同时关注系统成本与稳定性; 4、负责自如网的核心基础设施架构设计、研发和持续交付 任职要求 1、大学本科及以上学历,3年以上运维工作经验; 2、具有云原生相关组件/分布式存储/消息中心/注册中心等系统运维经验(Nginx/Kubernetes/MQ/ZK/ETCD/Ceph等) 3、熟悉go、python等常用运维开发语言及框架; 4、熟悉主流容器化技术,具备Kubernetes使用经验; 5、有丰富的系统运维经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验; 加分项 1、有自动化构建系统、配置管理、CI/CD系统、监控报警等自动化运维平台建设经验者优先; 2、有ServiceMesh使用维护经验者优先;
-
工作职责: 1、运维保障:通过不断优化技术架构,为业务提供安全、稳定,高效,易用的数据服务能力,支撑业务和数据量的快速扩张; 2、高可用能力保障:沉淀业务保障关键能力,如应急响应、故障恢复,健康巡检,变更管控,日常演练等; 3、自动化能力提升:负责内外部系统的日常管理和运维,利用自动化手段解决运维平台问题,提高其他部门生产力; 4、CI/DC能力提升:维护并改善CI/CD流程, 参与设计 CT (continuous testing) 流程,实现监控告警和故障恢复自动化; 5、运维平台开发&技术调研:CMDB、系统运维自动化平台、自动化业务监控平台、自动化工单系统、Devops平台开发;相关技术调研与文档输出。 任职要求: 1、拥有三年以上的高并发在线服务运维保障经验;拥生产环境Swarm/k8s/nomad 容器管理经验; 2、熟悉Linux (Ubuntu 优先),Python等常用运维工具,有一定的脚步编写能力,熟练使用 bash , 熟悉 sysctl 配置, 了解重要系统指标监控和解读; 3、拥有生产环境使用 Prometheus 、Zabbix经验, 包括部署, 使用和调优;拥有生产环境lvs等流量转发工具、nginx等服务代理或者服务网关等组件运维与自动化经验; 4、有 Kafka,Etcd,Zookeeper,RabbitMQ生产环境部署, 使用和调优经验;具有真实的CMDB、自动化平台、监控平台、工单系统、Devops开发经验; 5、熟练使用阿里云、腾讯云平台和 ELK 平台和相关工具;具有良好的文档编写能力与跨部门沟通能力。
-
岗位职责 1、负责线上业务的维护工作,确保线上业务能够7*24正常运行; 2、配合开发进行新项目的部署、上线以及后续的维护工作; 3、深入理解产品的架构, 发现并解决故障隐患及性能瓶颈,参与架构优化、容灾优化、性能优化等项目; 4、配合产品进行日常的升级发布,并且对于升级流程进行优化,提升升级发布的效率; 5、配合制定相关的运维流程,确保业务的稳定性、安全性以及标准性;" 任职要求 "1、本科以上学历,计算机或相关专业,2年及以上Linux运维工作经验,并有100台以上Linux服务器运维经验; 2、具备实际业务运维经验,如WEB、游戏等业务类型的维护,具备nginx的实际使用经验,最好了解业务层面的高可用; 3、具备基本的网络知识,如TCP/IP、HTTP、DNS等等,具备CCNA或者CCNP认证更佳; 4、熟悉CDN行业的主流产品及供应商,具备CDN实际使用经验,能够处理常见的CDN相关问题; 5、熟悉互联网产品基本架构,有互联网产品研发或运维经验者优先; 6、具备极强的责任感,提供7*24小时的服务技术支持,出现问题能够及时响应并且处理;
-
if strings.Contains(passions, "coding") { switch techstack { case "Go": fallthrough case "Node.js": fallthrough case "Python": fallthrough case "Kubernetes": fallthrough case "Serverless": fmt.Println("Join AfterShip") } } 岗位职责 1、保障公司业务的稳定,积极解决业务问题;负责公司各类公有云 PaaS、SaaS 产品的维护; 2、通过自研、开源软件二开等手段提升自动化能力,提升运维效率; 3、深入业务架构,结合运维相关的最佳实践,对线上系统进行优化; 4、通过架构优化、工具平台、流程机制建设,持续提升网站稳定性,持续优化云成本; 5、梳理和完善运维文档,沉淀技术经验;参与 On-Call 值班,及时响应处理线上报警等事件。 岗位要求 1、**本科及以上学历,优良的英语书写能力;至少 3 年以上互联网系统的运维经验; 2、熟悉 Linux 操作系统、计算机网络等,基础知识扎实;至少熟练掌握 Shell/Python/Go一种语言; 3、有生产环境下 K8s 的使用和维护经验;熟悉 Prometheus、Grafana 等监控工具; 4、有 GCP、AWS 等国外公有云使用经验优先,比如 GKE、Pub/Sub、Cloud Storage、Dataflow、Cloud Run 等产品; 5、有良好的线上安全意识、学习能力、团队精神和客户意识;有高度的责任感,对于工作积极严谨。 加分项 1、有丰富的 GCP 或 AWS 云平台使用经验; 2、有运维自动化平台或者 API 开发经验。 为什么加入我们 1、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持; 2、稳健发展:团队稳健扩张,业务规模及营收每年持续稳健增长; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
-
岗位职责 1、保障公司业务的稳定、高效运行,快速响应业务需求、积极解决业务问题; 2、深入业务架构,结合运维相关的最佳实践,持续对线上系统进行优化; 3、持续梳理和完善业务运维文档,包括业务架构、监控报警指标、日常操作规范、应急预案等各类文档; 4、推动线上服务稳定性建设,提升服务的可靠性、可扩展性,保障系统 SLA; 5、参与 On-Call 值班,及时响应处理线上报警事件。 岗位要求 1、**本科及以上学历;至少 3 年以上互联网系统的运维经验; 2、熟悉 Linux 操作系统、计算机网络等,基础知识扎实; 3、有生产环境下 K8s 的使用和维护经验; 4、至少熟练掌握 Shell 或 Python 一种脚本语言; 5、具有良好的线上安全意识,有责任感,有良好的的服务意识和团队精神。 加分项 1、有丰富的 GCP 或 AWS 云平台使用经验 ; 2、有优秀的英文听说读写能力。 为什么加入我们 1、高速发展:公司处于快速发展期,规模及营收每年持续快速增长; 2、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持,行业大佬背书; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
-
岗位职责: 1、负责线上网站业务的维护工作,确保线上业务能够7*24正常运行; 2、配合开发进行新项目的部署、上线以及后续的维护工作; 3、深入理解产品的架构, 发现并解决故障隐患及性能瓶颈,参与架构优化、容灾优化、性能优化等项目; 4、配合产品进行日常的升级发布,并且对于升级流程进行优化,提升升级发布的效率; 5、配合制定相关的运维流程,确保业务的稳定性、安全性以及标准性; 任职要求: 1、本科以上学历,计算机或相关专业,2年及以上Linux运维工作经验,并有100台以上Linux服务器运维经验; 2、具备实际业务运维经验,如WEB、游戏等业务类型的维护,具备nginx的实际使用经验,最好了解业务层面的高可用; 3、具备基本的网络知识,如TCP/IP、HTTP、DNS等等,具备CCNA或者CCNP认证更佳; 4、熟悉CDN行业的主流产品及供应商,具备CDN实际使用经验,能够处理常见的CDN相关问题; 5、熟悉互联网产品基本架构,有互联网产品研发或运维经验者优先; 6、具备极强的责任感,提供7*24小时的服务技术支持,出现问题能够及时响应并且处理;
-
Description The platform team is seeking an experienced Site Reliability Engineer (SRE) to meet rapid expansion of our business. You need to be highly sensitive to system reliability, and keen on identifying/resolving system risks to keep the system working well. In the platform team, you will be involved in provisioning, maintaining infrastructure, proposing solutions for the system, and working online with people from different countries. Responsibilities: • Participate in on-call duty to respond/investigate/resolve system incidents or handle support tickets for application teams. • Pay attention to alarms in the monitoring system, provide timely feedback, and solve problems. • Design, implement, and govern infrastructure to achieve high availability & scalability. • Evaluate and research technical initiatives with complete plans including documentation, provisioning, testing, and monitoring. • Construct service quality system, lead the team to complete indicator quantification. Required Skills and Qualifications: • Good English communication and writing skills, learning ability, and hands on skills. • Proficiency with Azure (Azure resources, network models, and best practices). • More than 2 years of experience in managing AKS/Kubernetes. • Familiar with Infrastructure as Code, Terraform preferred. • Familiar with CI/CD automation. • Familiar with observability technologies, like Prometheus, and Grafana. • Familiar with several of following middleware: Kafka, MySQL, Mongo, Elasticsearch, and Redis. Nice to Have: • CKA, CKAD Certificate is a plus. • Certificates related to Cloud Native/ Ops and Maintenance Qualifications is a plus. • Familiar with Java or Go.
-
Description The platform team is seeking an experienced Site Reliability Engineer (SRE) to meet rapid expansion of our business. You need to be highly sensitive to system reliability, and keen on identifying/resolving system risks to keep the system working well. In the platform team, you will be involved in provisioning, maintaining infrastructure, proposing solutions for the system, and working online with people from different countries. Responsibilities: • Participate in on-call duty to respond/investigate/resolve system incidents or handle support tickets for application teams. • Pay attention to alarms in the monitoring system, provide timely feedback, and solve problems. • Design, implement, and govern infrastructure to achieve high availability & scalability. • Evaluate and research technical initiatives with complete plans including documentation, provisioning, testing, and monitoring. • Construct service quality system, lead the team to complete indicator quantification. Required Skills and Qualifications: • Good English communication and writing skills, learning ability, and hands on skills. • Proficiency with Azure (Azure resources, network models, and best practices). • More than 2 years of experience in managing AKS/Kubernetes. • Familiar with Infrastructure as Code, Terraform preferred. • Familiar with CI/CD automation. • Familiar with observability technologies, like Prometheus, and Grafana. • Familiar with several of following middleware: Kafka, MySQL, Mongo, Elasticsearch, and Redis. Nice to Have: • CKA, CKAD Certificate is a plus. • Certificates related to Cloud Native/ Ops and Maintenance Qualifications is a plus. • Familiar with Java or Go.
-
SRE运维工程师(中间件及云原生方向) 岗位描述:乌鸫科技-TAM-混合云专家组 1. 深入理解阿里混合云产品技术原理, 协助平台驻场&客户解决云平台规划、交付、升级、运维等阶段的疑难问题,主要技术方向在弹性计算、云网络、云存储、安全、数据库,云平台底座,云管,云原生等技术领域; 2,对于客户场景的问题沉淀方案提升产品的标准化支持能力,站在客户的视角提出产品改进优化点,提升产品的体验和稳定性 3. 在高可用故障演练、热升级实施、架构改造等方面总结沉淀技术解决方案,通过专家服务形式提供现场履约 4,在业务场景通过开发工具不断提升业务效率和完善服务的标准化能力 具备以下能力优先: 1,有云厂商相关云产品运维支持经验者优先; 2,有阿里云ACP,AES,RHCE等专业领域证书优先; 职位要求 1. 大学本科及以上学历,英语4级及以上, 对云平台相关的运维支持,现场履约支持,工具开发等工作领域有热情; 2. 对于云平台计算、存储、网络、操作系统、中间件、数据库、云安全等技术领域,在至少一个领域有2年及以上的运维支持经验, 在纵向技术栈深入理解,针对疑难问题有较强分析与排查能力; 3, 在通用能力上熟悉Linux,Docker,具备常见问题的分析解决能力,对脚本有基本的阅读能力; 4, 优秀的沟通和协作能力,具备较好的客户服务意识,具备较强的问题ownership; 5. 有优秀的逻辑思维和技术文档撰写的能力,热爱技术并善于钻研,能主动思考,有解决疑难问题的毅力和决心。 6. 在工具开发方向需要有丰富的代码开发以及优化的经验,精通一门以上脚本语言(shell/python等),熟悉java/C++/Golang等开发语言一种及以上。