• 25k-35k 经验5-10年 / 本科
    居住服务 / C轮 / 2000人以上
    工作内容: 1、负责自如大数据平台组件的运维 2、负责自如一站式大数据开发平台的建设 任职要求: 1、大学本科及以上学历,计算机或相关专业; 2、精通clichouse、hbase运维及封装 3、熟练掌握haoop、atlas、ranger、hive、flink、夜莺监控等大数据组件的运维,对大数据组件具备源码改造能力 4、熟练掌握Java、Python、shell,熟悉springboot; 5、有大数据项目开源社区贡献者优先
  • 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责火山引擎混合云存储产品的交付运维产品设计与研发,为字节跳动内部业务以及火山引擎客户提供企业级存储产品服务; 2、技术规划和架构设计:深刻理解各存储产品通用能力和架构,在私有化的交付、运维场景,通过领先的架构设计和研发能力解决交付、运维场景的各种复杂问题,完成高质量的工程落地; 3、打造极致效率:深刻理解混合云存储产品研发和交付全流程特点,持续提升研发、POC、交付以及售后效率; 4、提升产品智能化能力:深刻理解大规模系统运营,结合AI for System能力,实现产品原生自治能力以及自治工具产品化,能为客户提供极致的业务连续性以及低运维能力。 职位要求: 1、深入理解linux系统,熟悉分布式系统原理及常见架构; 2、熟悉Go/Python中至少一种,对工程质量有很高的自我要求,有开源社区代码贡献者优先; 3、熟悉容器技术、云原生技术、分布式协调服务者优先,包括但不限于Kubernetes、ZooKeeper、Etcd、Prometheus等等,有源码级的了解优先; 4、有云管平台、DevOps及存储等产品开发和交付经验优先; 5、有混合云、私有云相关产品经验者优先。
  • 15k-25k·13薪 经验3-5年 / 大专
    移动互联网,消费生活 / B轮 / 150-500人
    岗位职责 1,主要进行自动化运维工具系统,和公司相关内部系统的开发 2,监控体系优化和开发,配置相关监控面板 3,Linux环境服务器调优,故障处理,日常巡检,Linux为主 4,协助处理腾讯云/阿里云等公共云上的运维工作 任职资格 1,**专科以上学历,能使用VUE/React开发简单的前端界面 2,较深度掌握linux操作系统,shell达到非常熟悉程度 3,python开发熟练,有至少一个以上项目开发经验,熟悉flask web、sqlalchemy优先 4,安全/数据库(mysql)/虚拟化和容器/自动化运维, 具备在海量环境下的独立运维能力优先 5,了解ansible,saltstack自动化运维工具优先 6. 具备良好的团队合作、沟通表达能力,心态沉稳可靠。
  • 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、设计、实施和维护高可用、高性能的豆包大模型服务架构; 2、使用Terraform和其他IaC工具管理和自动化云基础设施部署; 3、开发和优化自动化运维工具,提高模型部署效率和系统可靠性; 4、优化大规模分布式模型训练和推理的基础设施; 5、与AI研究团队密切合作,确保新模型和功能的顺利部署和稳定运行; 6、使用Terraform管理多云环境,确保基础设施的一致性和可重复性。 职位要求: 1、本科及以上学历,计算机相关专业,3年以上云计算或者大模型领域的开发或稳定性建设经验; 2、熟练掌握Python/Golang/Java中的一种语言,具备云原生相关技术栈。 加分项: 1、了解机器学习模型部署和服务化的最佳实践; 2、具备在多云环境(如AWS,GCP,Azure)中工作的经验; 3、熟悉 CI/CD 流程,有使用Jenkins,GitLab CI等工具的经验; 4、有大语言模型或其他AI大模型相关运维经验。
  • 20k-30k·13薪 经验5-10年 / 本科
    网络通信,信息安全 / 不需要融资 / 15-50人
    工作职责: 1、负责服务器的环境搭建及日常维护,保障系统稳定可靠运行; 2、负责公司相关产品的部署运维; 3、负责线上问题排查,紧急事故处理,后续事故分析与优化。 岗位要求: 1. 计算机相关专业本科及以上学历,5年以上工作经验; 2.运维经验丰富,精通python, 熟悉Linux系统管理和性能优化,熟悉docker; 3. 熟悉阿里云、腾讯云、AWS等云平台的操作; 5. 熟悉高并发、高可用、微服务系统架构者优先; 6. 熟悉Prometheus、Grafana等监控报警系统优先; 7. 自主学习能力和兴趣,能承受较强的工作压力,具备良好的沟通及团队协作精神
  • 19k-28k·15薪 经验3-5年 / 本科
    金融 / 上市公司 / 2000人以上
    岗位职责: 1. 大数据平台组件运维及优化,进行必要的二次开发; 2. 数据湖、数据仓库技术研究及落地; 3. 实时、离线数据产品设计及开发。 任职要求: 1. 本科及以上学历,计算机及相关专业; 2. 3-5年Java/Scala开发经验,熟悉多线程编程; 3. 熟悉大数据生态相关技术,有二次开发经验者优先; 4. 熟悉实时及离线数仓架构及开发流程,有Phoenix/StarRocks使用经验优先; 5. 熟悉常见设计模式,熟悉如Spring/SpringMVC/Mybatis等主流框架; 6. 有较强的学习能力与逻辑思维能力,良好的团队合作精神。
  • 20k-30k·14薪 经验3-5年 / 本科
    电商平台 / 不需要融资 / 150-500人
    岗位职责: 1、参与设计、实现能够保障业务稳定,提供运维工作效能的自动化平台; 2、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障。 岗位要求: 1、***大学本科及以上学历,计算机或相关专业,3年以上相关工作经验; 2、扎实的计算机软件基础知识:了解 Linux 操作系统、存储、网络IO等相关原理,能熟练配置及优化Nginx、Tomcat、Redis、ELK等中间件; 3、熟悉一种或多种编程语言,例如 Python/Go/Java/Shell;精通python,有web开发能力优先; 4、熟练使用Ansible、Puppet等运维自动化工具; 5、具备系统化解决问题的能力,有良好的沟通技巧和主人翁责任感; 6、熟悉k8s容器平台,对部署、调度、监控等有深入理解; 7、参与或发布过开源项目,有运维平台开发经验者优先。
  • 15k-20k 经验3-5年 / 本科
    电商平台,消费生活 / 未融资 / 50-150人
    【岗位职责】 1. 负责蓝凌OA系统上线对接工作,协助项目组完成上线前系统的部署实施、性能调优、数据库调优工作; 2. 负责蓝凌OA系统日常运维及异常处理; 3. 协同办公需求分析,进行方案设计及开发实现,规范需求受理及开发流程。能利用OA开发平台和工具,开发配置新的业务管理和业务流程模块; 4. 负责蓝凌OA类二次开发项目的推进,保障项目进度和交付质量及时效; 5. 定期组织OA等信息系统的使用培训。 【任职要求】 1. ***本科以上学历,计算机相关专业; 2. 使用蓝凌系统开发年限不少3年,熟悉蓝凌系统运行底层逻辑,熟练常见OA需求场景的蓝凌开发; 3. 熟练使用蓝凌EKP开发平台,并可独立完成二次开发,有OA周边系统接口技术开发经验:熟悉蓝凌EKP系统,并可独立维护系统,确保系统的高效运行; 4. 具备良好的文档编写习惯和代码编写规范; 5. 具备一定的项目管理经验,有较强的问题分析和问题解决能力,有较强的抗压能力,具备较强的沟通协作能力,具有团队精神; 6. 自驱力强,好学,具备良好的抗压能力。
  • 12k-15k 经验3-5年 / 本科
    IT技术服务|咨询 / 上市公司 / 2000人以上
    岗位职责: 1.编写基本的运维命令; 2.参与编写变更实施方案和运维手册; 3.独立管理小型项目版本基线和配置项,发布软件版本; 4.执行软件安装部署,记录部署问题; 5.参与排查软件开发和测试过程中的问题,支持开发和测试过程; 6.受理IT服务请求,执行系统或工具点检、监控、备份和应急演练。 任职资格: 1.学历:本科及以上学历,计算机及其相关专业; 2.经验:参与过中、小型项目/产品的配置管理、集成发布或IT技术支持工作; 3.知识技能:掌握一种主流语言(Java、Python)/开发工具,了解主流操作系统(Linux),了解主流数据库(Mysql、Mongodb、Redis);具备版本管理和配置管理能力,能够执行软件安装部署;能够在指导下编写安装测试报告以及运维手册,文档结构条理清晰,内容详实准确;了解配置管理规范,或掌握基本的IT运维知识; 4.能力:具有良好的沟通、协调和表达能力,具备较强的工作责任心和抗压能力;
  • 20k-35k·14薪 经验3-5年 / 本科
    金融 / 未融资 / 500-2000人
    工作职责: 1、运维平台建设:基于业务迭代需要,建设大型规模生产环境管理运维平台,包含服务发布、资源管理、监控体系等; 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、效能效率平台建设:优化CI/CD产研流程,参与流程与规范设计,基于业务研发场景建设效能平台; 4、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 5、知识沉淀:相关技术调研与文档输出。 任职要求: 1、拥有三年以上的 Golang、Python 3.x 和 Vue 实际开发经验; 2、拥有具备规模的容器平台、监控平台开发管理经验; 3、熟悉Linux (Ubuntu 优先)常用运维工具,熟练使用 bash , 熟悉 sysctl 配置, 了解重要系统指标监控和解读; 4、各类效能效能效率与运维开源系统使用和开发经验:Prometheus、ELK等; 5、了解常用中间件:数据库、消息队列、服务发现等。
  • 20k-40k·15薪 经验1-3年 / 本科
    人工智能服务 / 上市公司 / 500-2000人
    1. 熟练使用 Linux 平台上的各种相关工具进行 CPU 性能、内存使用、网络、存储的故障分析和调优。 2. 熟悉国内主流公有云平台,具有丰富的系统上云经验。 3. 熟练使用 Terraform 进行基础设施的自动化部署。 4. 熟悉 Kubernetes 的基本架构和主要应用场景,能够独立编写 Helm chart 进行大型系统的微服务改造。 5. 熟悉各种自动化安装部署和配置管理工具,如 Salt 、Ansible 等。 6. 熟练使用 Git,熟悉 DevOps 平台的主要功能,熟悉 CI/CD 流程中的各主要环节。 7. 熟悉基于 Golang / Python 的程序开发。 8. 加分项:熟悉基于Vue/React的前端程序开发。
  • 10k-13k 经验1-3年 / 本科
    IT技术服务|咨询 / 不需要融资 / 500-2000人
    1、为平台设计规范的运维解决方法及运维工具开发工作; 2、提高现有系统的自动化程度,包括Linux下的部署、运维平台、监控系统等; 3、研发基础服务组件,解决共性需求,减少重复开发与运维; 4、网络安全自动化运营相关开发工作; 1、熟悉Linux操作系统、计算机网络等,基础知识扎实; 2、3年以上运维开发经验、熟练掌握Python; 3、了解或熟悉Django、flask等任意一种web框架,熟悉Django者优先; 4、精通shell,有运维自动化开发实战经验和相关案例;
  • 40k-80k 经验5-10年 / 大专
    区块链 / 不需要融资 / 50-150人
    岗位职责: - 根据公司战略和业务发展的要求,设计系统运维方案和基础架构,制订运维工作策略、规划,保障核心系统的高效稳定运行 - 负责相关运维团队的人员培养和团队管理,提升团队的整体技术实力 - 建立完善的服务运维体系,包括资源管理、容量管理、变更管理、配置管理、灾备管理、活动重保、日常Oncall、业务巡检、故障预案、架构优化等 - 与研发协同持续优化核心系统和基础设施的稳定性和性能 - 用技术手段提升运维工程化能力,研发设计自动化运维工具和平台,减少日常重复性工作,提升运维效率 - 通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率 任职资格: - 计算机相关专业,7年以上互联网系统运维经验,或5年以上互联网SRE经验 - 具备较强的工程能力,精通使用至少一种编程语言,如shell、python、go、Java等,具有较强运维开发能力 - 精通分布式系统、大规模集群、容错、备份、负载均衡、云原生等技术,对高可用架构、容量规划和配置管理有实践经验,具备很强技术敏感度和故障排查经验 - 熟练掌握如nginx、lvs、redis、kafka、mysql等常见中间件的工作原理、部署及性能优化。 - 熟悉K8S和容器技术,能够对K8S平台进行维护和优化 - 熟悉linux文件系统、内核、linux性能调优、TCP/IP、HTTP等协议,有良好的网络、数据存储、计算机体系结构方面的知识 ,具备很强技术敏感度和故障排查经验。 - 熟悉AWS/GCP/阿里云/腾讯云等云平台运维管理经验 - 具备优秀的团队管理能力,优秀的解决问题能力和较强的学习能力 - 为人务实和正直,有强的大局观
  • 12k-20k·16薪 经验1-3年 / 本科
    区块链 / A轮 / 15-50人
    职位职责: 1、负责主流区块链RPC节点的搭建,日常运维,升级,监测。 2、整合节点运行日志,管理ES数据库,提供访问统计能力。 3、负责服务可用性评估,平台的开发及维护,建设服务健康度评估体系,推进各个业务提升可用性; 4、负责预案管理,故障恢复平台的开发及维护,预研故障自动化定位能力; 职位要求: 1、本科以上学历,1-3年以上相关工作经验,熟悉 Go/python/C/C++/Java 等编程语言中的一种或几种,了解数据结构与算法; 2、熟悉 Linux 系统,了解网络TCP/IP协议; 3、熟悉MySQL、ES、Redis、MongoDB 等数据库使用; 4、有较强的系统问题分析经验和能力,能够解决复杂的系统问题; 5、责任心强,追求效率,有良好的对外沟通能力、协作能力、学习能力与抗压能力; 6、有DevOps、CICD、监控系统、运维自动化系统开发经验者优先。
  • 7k-12k 经验不限 / 本科
    移动互联网,数据服务 / 不需要融资 / 50-150人
    (一)运维自动化系统开发与维护 设计、开发和部署自动化运维脚本和工具,涵盖服务器配置管理、应用程序部署、监控告警、故障自愈等方面,减少人工干预,提高运维效率和准确性。 例如,利用 Python 语言编写脚本实现多服务器批量软件安装与配置更新,确保各服务器环境一致性。 开发自动化部署工具,结合容器技术(如 Docker、Kubernetes)实现应用的快速、可靠部署与弹性伸缩。 持续优化现有运维自动化平台和工具集,根据业务需求和技术发展趋势,引入新的技术和框架,提升系统性能和功能。 定期对自动化运维系统进行性能评估和瓶颈分析,通过代码优化、数据库调优、缓存策略调整等手段提升系统响应速度和处理能力。 研究并整合新兴的运维技术,如 Serverless 架构、云原生技术等,为运维团队提供更先进的解决方案。 (二)基础设施监控与管理 构建和完善 IT 基础设施监控体系,包括服务器、网络设备、存储系统等,实时采集性能指标、日志数据等信息,并通过可视化界面进行展示和分析。 部署和配置监控工具(如 Zabbix、Prometheus),定义监控指标阈值和告警规则,确保及时发现系统故障和性能异常。 开发监控数据可视化插件或定制化报表,为运维团队和其他相关部门提供直观、准确的基础设施运行状态视图,辅助决策制定。 负责基础设施容量规划和管理,根据业务增长趋势和历史数据,预测资源需求,提前规划和调整服务器、存储等资源配置,保障系统的高可用性和可扩展性。 定期对基础设施资源使用情况进行统计分析,建立容量模型,通过模拟和预测,为资源扩容或优化提供数据支持。 与采购部门合作,制定合理的硬件采购计划,确保在满足业务需求的前提下,控制成本并提高资源利用率。 (三)故障排查与处理 协助运维团队快速定位和解决系统故障,通过对监控数据、日志文件和系统状态的深入分析,找出故障根源,并提供有效的解决方案。 在系统出现故障时,及时响应并参与故障排查工作,利用技术手段(如调试工具、数据分析软件)快速定位问题点,如网络故障、服务器宕机、应用程序崩溃等。 针对常见故障类型,总结经验教训,制定故障排查手册和应急处理预案,提高运维团队整体故障处理能力和响应速度。 开发故障诊断工具和脚本,实现对系统潜在问题的自动检测和预警,提前发现并解决可能导致系统故障的隐患。 例如,编写脚本定期检查服务器硬件状态(如磁盘健康、内存使用情况)、应用程序关键进程运行状态等,在发现异常时及时发送告警信息,并提供初步的诊断建议。 (四)云计算与容器技术应用 参与企业云计算平台的架构设计和实施,熟悉主流云服务提供商(如 AWS、Azure、阿里云)的产品和服务,利用云原生技术构建和管理应用程序运行环境。 协助制定云计算迁移策略,将企业现有应用逐步迁移到云端,优化资源配置,降低运维成本。 深入研究容器编排技术(如 Kubernetes),负责集群的搭建、配置和管理,确保容器化应用的高效运行和动态扩展。 开发和维护与云计算、容器技术相关的自动化工具和脚本,实现云资源的自动化创建、配置和管理,以及容器化应用的持续集成 / 持续交付(CI/CD)流程自动化。 搭建基于 Jenkins、GitLab CI/CD 等平台的自动化构建和部署流水线,实现容器化应用从代码提交到生产环境部署的全自动化流程,确保开发团队能够快速、可靠地交付应用更新。 (五)与开发团队协作 与软件开发团队紧密合作,参与应用程序的设计和开发阶段,提供运维视角的建议和技术支持,确保应用在架构设计上具备良好的可运维性和扩展性。 在应用架构评审过程中,从运维角度对系统架构、技术选型、部署方案等提出意见和建议,如数据库架构优化、缓存策略设计、分布式系统部署方案等,避免因架构不合理导致的运维难题。 协助开发团队制定应用程序的监控指标和日志规范,确保在应用开发过程中能够充分考虑运维需求,便于后续的监控、故障排查和性能优化工作。 为开发团队提供自动化运维工具和平台的培训与技术支持,帮助开发人员了解和掌握运维流程和工具的使用方法,促进开发与运维的高效协同工作。 组织内部培训课程和技术分享会,向开发团队介绍运维自动化工具的功能和使用场景,如如何使用自动化部署工具进行应用发布、如何通过监控平台查看应用运行状态等。 为开发人员提供技术咨询和问题解答服务,及时处理开发过程中与运维相关的技术难题,确保开发工作的顺利进行。 (六)安全与合规性保障 协助制定和实施 IT 运维安全策略和规范,确保运维活动符合企业信息安全政策和行业法规要求。 参与安全漏洞扫描和风险评估工作,对运维系统和工具进行安全检查,及时发现并修复安全漏洞,防止数据泄露和恶意攻击。 制定服务器安全加固标准和操作流程,包括操作系统配置优化、用户权限管理、防火墙设置等,保障服务器和应用程序的安全运行。 开发和维护安全相关的自动化工具和脚本,实现安全漏洞检测、入侵检测与防御、数据加密等功能的自动化,提高安全运维效率和响应速度。 例如,编写脚本定期对服务器进行安全漏洞扫描,并与漏洞管理平台集成,实现漏洞信息的自动收集、分析和报告。 利用开源工具或自行开发脚本实现对网络流量的实时监测和分析,及时发现并阻止异常流量和入侵行为,保障网络安全。