-
工作内容: 1、负责自如大数据平台组件的运维 2、负责自如一站式大数据开发平台的建设 任职要求: 1、大学本科及以上学历,计算机或相关专业; 2、精通clichouse、hbase运维及封装 3、熟练掌握haoop、atlas、ranger、hive、flink、夜莺监控等大数据组件的运维,对大数据组件具备源码改造能力 4、熟练掌握Java、Python、shell,熟悉springboot; 5、有大数据项目开源社区贡献者优先
-
职位职责: 1、负责火山引擎混合云存储产品的交付运维产品设计与研发,为字节跳动内部业务以及火山引擎客户提供企业级存储产品服务; 2、技术规划和架构设计:深刻理解各存储产品通用能力和架构,在私有化的交付、运维场景,通过领先的架构设计和研发能力解决交付、运维场景的各种复杂问题,完成高质量的工程落地; 3、打造极致效率:深刻理解混合云存储产品研发和交付全流程特点,持续提升研发、POC、交付以及售后效率; 4、提升产品智能化能力:深刻理解大规模系统运营,结合AI for System能力,实现产品原生自治能力以及自治工具产品化,能为客户提供极致的业务连续性以及低运维能力。 职位要求: 1、深入理解linux系统,熟悉分布式系统原理及常见架构; 2、熟悉Go/Python中至少一种,对工程质量有很高的自我要求,有开源社区代码贡献者优先; 3、熟悉容器技术、云原生技术、分布式协调服务者优先,包括但不限于Kubernetes、ZooKeeper、Etcd、Prometheus等等,有源码级的了解优先; 4、有云管平台、DevOps及存储等产品开发和交付经验优先; 5、有混合云、私有云相关产品经验者优先。
-
岗位职责 1,主要进行自动化运维工具系统,和公司相关内部系统的开发 2,监控体系优化和开发,配置相关监控面板 3,Linux环境服务器调优,故障处理,日常巡检,Linux为主 4,协助处理腾讯云/阿里云等公共云上的运维工作 任职资格 1,**专科以上学历,能使用VUE/React开发简单的前端界面 2,较深度掌握linux操作系统,shell达到非常熟悉程度 3,python开发熟练,有至少一个以上项目开发经验,熟悉flask web、sqlalchemy优先 4,安全/数据库(mysql)/虚拟化和容器/自动化运维, 具备在海量环境下的独立运维能力优先 5,了解ansible,saltstack自动化运维工具优先 6. 具备良好的团队合作、沟通表达能力,心态沉稳可靠。
-
职位职责: 1、设计、实施和维护高可用、高性能的豆包大模型服务架构; 2、使用Terraform和其他IaC工具管理和自动化云基础设施部署; 3、开发和优化自动化运维工具,提高模型部署效率和系统可靠性; 4、优化大规模分布式模型训练和推理的基础设施; 5、与AI研究团队密切合作,确保新模型和功能的顺利部署和稳定运行; 6、使用Terraform管理多云环境,确保基础设施的一致性和可重复性。 职位要求: 1、本科及以上学历,计算机相关专业,3年以上云计算或者大模型领域的开发或稳定性建设经验; 2、熟练掌握Python/Golang/Java中的一种语言,具备云原生相关技术栈。 加分项: 1、了解机器学习模型部署和服务化的最佳实践; 2、具备在多云环境(如AWS,GCP,Azure)中工作的经验; 3、熟悉 CI/CD 流程,有使用Jenkins,GitLab CI等工具的经验; 4、有大语言模型或其他AI大模型相关运维经验。
-
工作职责: 1、负责服务器的环境搭建及日常维护,保障系统稳定可靠运行; 2、负责公司相关产品的部署运维; 3、负责线上问题排查,紧急事故处理,后续事故分析与优化。 岗位要求: 1. 计算机相关专业本科及以上学历,5年以上工作经验; 2.运维经验丰富,精通python, 熟悉Linux系统管理和性能优化,熟悉docker; 3. 熟悉阿里云、腾讯云、AWS等云平台的操作; 5. 熟悉高并发、高可用、微服务系统架构者优先; 6. 熟悉Prometheus、Grafana等监控报警系统优先; 7. 自主学习能力和兴趣,能承受较强的工作压力,具备良好的沟通及团队协作精神
-
岗位职责: 1. 大数据平台组件运维及优化,进行必要的二次开发; 2. 数据湖、数据仓库技术研究及落地; 3. 实时、离线数据产品设计及开发。 任职要求: 1. 本科及以上学历,计算机及相关专业; 2. 3-5年Java/Scala开发经验,熟悉多线程编程; 3. 熟悉大数据生态相关技术,有二次开发经验者优先; 4. 熟悉实时及离线数仓架构及开发流程,有Phoenix/StarRocks使用经验优先; 5. 熟悉常见设计模式,熟悉如Spring/SpringMVC/Mybatis等主流框架; 6. 有较强的学习能力与逻辑思维能力,良好的团队合作精神。
-
岗位职责: 1、参与设计、实现能够保障业务稳定,提供运维工作效能的自动化平台; 2、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等; 3、为大型系统构建自动化运营解决方案;与系统开发团队合作,从系统设计到上线的整个生命周期内保障系统可靠性; 4、通过监控系统组件可用性、性能指标提升系统可见性,帮助系统开发以及团队快速定位故障。 岗位要求: 1、***大学本科及以上学历,计算机或相关专业,3年以上相关工作经验; 2、扎实的计算机软件基础知识:了解 Linux 操作系统、存储、网络IO等相关原理,能熟练配置及优化Nginx、Tomcat、Redis、ELK等中间件; 3、熟悉一种或多种编程语言,例如 Python/Go/Java/Shell;精通python,有web开发能力优先; 4、熟练使用Ansible、Puppet等运维自动化工具; 5、具备系统化解决问题的能力,有良好的沟通技巧和主人翁责任感; 6、熟悉k8s容器平台,对部署、调度、监控等有深入理解; 7、参与或发布过开源项目,有运维平台开发经验者优先。
-
【岗位职责】 1. 负责蓝凌OA系统上线对接工作,协助项目组完成上线前系统的部署实施、性能调优、数据库调优工作; 2. 负责蓝凌OA系统日常运维及异常处理; 3. 协同办公需求分析,进行方案设计及开发实现,规范需求受理及开发流程。能利用OA开发平台和工具,开发配置新的业务管理和业务流程模块; 4. 负责蓝凌OA类二次开发项目的推进,保障项目进度和交付质量及时效; 5. 定期组织OA等信息系统的使用培训。 【任职要求】 1. ***本科以上学历,计算机相关专业; 2. 使用蓝凌系统开发年限不少3年,熟悉蓝凌系统运行底层逻辑,熟练常见OA需求场景的蓝凌开发; 3. 熟练使用蓝凌EKP开发平台,并可独立完成二次开发,有OA周边系统接口技术开发经验:熟悉蓝凌EKP系统,并可独立维护系统,确保系统的高效运行; 4. 具备良好的文档编写习惯和代码编写规范; 5. 具备一定的项目管理经验,有较强的问题分析和问题解决能力,有较强的抗压能力,具备较强的沟通协作能力,具有团队精神; 6. 自驱力强,好学,具备良好的抗压能力。
-
岗位职责: 1.编写基本的运维命令; 2.参与编写变更实施方案和运维手册; 3.独立管理小型项目版本基线和配置项,发布软件版本; 4.执行软件安装部署,记录部署问题; 5.参与排查软件开发和测试过程中的问题,支持开发和测试过程; 6.受理IT服务请求,执行系统或工具点检、监控、备份和应急演练。 任职资格: 1.学历:本科及以上学历,计算机及其相关专业; 2.经验:参与过中、小型项目/产品的配置管理、集成发布或IT技术支持工作; 3.知识技能:掌握一种主流语言(Java、Python)/开发工具,了解主流操作系统(Linux),了解主流数据库(Mysql、Mongodb、Redis);具备版本管理和配置管理能力,能够执行软件安装部署;能够在指导下编写安装测试报告以及运维手册,文档结构条理清晰,内容详实准确;了解配置管理规范,或掌握基本的IT运维知识; 4.能力:具有良好的沟通、协调和表达能力,具备较强的工作责任心和抗压能力;
-
工作职责: 1、运维平台建设:基于业务迭代需要,建设大型规模生产环境管理运维平台,包含服务发布、资源管理、监控体系等; 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、效能效率平台建设:优化CI/CD产研流程,参与流程与规范设计,基于业务研发场景建设效能平台; 4、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 5、知识沉淀:相关技术调研与文档输出。 任职要求: 1、拥有三年以上的 Golang、Python 3.x 和 Vue 实际开发经验; 2、拥有具备规模的容器平台、监控平台开发管理经验; 3、熟悉Linux (Ubuntu 优先)常用运维工具,熟练使用 bash , 熟悉 sysctl 配置, 了解重要系统指标监控和解读; 4、各类效能效能效率与运维开源系统使用和开发经验:Prometheus、ELK等; 5、了解常用中间件:数据库、消息队列、服务发现等。
-
1. 熟练使用 Linux 平台上的各种相关工具进行 CPU 性能、内存使用、网络、存储的故障分析和调优。 2. 熟悉国内主流公有云平台,具有丰富的系统上云经验。 3. 熟练使用 Terraform 进行基础设施的自动化部署。 4. 熟悉 Kubernetes 的基本架构和主要应用场景,能够独立编写 Helm chart 进行大型系统的微服务改造。 5. 熟悉各种自动化安装部署和配置管理工具,如 Salt 、Ansible 等。 6. 熟练使用 Git,熟悉 DevOps 平台的主要功能,熟悉 CI/CD 流程中的各主要环节。 7. 熟悉基于 Golang / Python 的程序开发。 8. 加分项:熟悉基于Vue/React的前端程序开发。
-
1、为平台设计规范的运维解决方法及运维工具开发工作; 2、提高现有系统的自动化程度,包括Linux下的部署、运维平台、监控系统等; 3、研发基础服务组件,解决共性需求,减少重复开发与运维; 4、网络安全自动化运营相关开发工作; 1、熟悉Linux操作系统、计算机网络等,基础知识扎实; 2、3年以上运维开发经验、熟练掌握Python; 3、了解或熟悉Django、flask等任意一种web框架,熟悉Django者优先; 4、精通shell,有运维自动化开发实战经验和相关案例;
-
岗位职责: - 根据公司战略和业务发展的要求,设计系统运维方案和基础架构,制订运维工作策略、规划,保障核心系统的高效稳定运行 - 负责相关运维团队的人员培养和团队管理,提升团队的整体技术实力 - 建立完善的服务运维体系,包括资源管理、容量管理、变更管理、配置管理、灾备管理、活动重保、日常Oncall、业务巡检、故障预案、架构优化等 - 与研发协同持续优化核心系统和基础设施的稳定性和性能 - 用技术手段提升运维工程化能力,研发设计自动化运维工具和平台,减少日常重复性工作,提升运维效率 - 通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率 任职资格: - 计算机相关专业,7年以上互联网系统运维经验,或5年以上互联网SRE经验 - 具备较强的工程能力,精通使用至少一种编程语言,如shell、python、go、Java等,具有较强运维开发能力 - 精通分布式系统、大规模集群、容错、备份、负载均衡、云原生等技术,对高可用架构、容量规划和配置管理有实践经验,具备很强技术敏感度和故障排查经验 - 熟练掌握如nginx、lvs、redis、kafka、mysql等常见中间件的工作原理、部署及性能优化。 - 熟悉K8S和容器技术,能够对K8S平台进行维护和优化 - 熟悉linux文件系统、内核、linux性能调优、TCP/IP、HTTP等协议,有良好的网络、数据存储、计算机体系结构方面的知识 ,具备很强技术敏感度和故障排查经验。 - 熟悉AWS/GCP/阿里云/腾讯云等云平台运维管理经验 - 具备优秀的团队管理能力,优秀的解决问题能力和较强的学习能力 - 为人务实和正直,有强的大局观
-
职位职责: 1、负责主流区块链RPC节点的搭建,日常运维,升级,监测。 2、整合节点运行日志,管理ES数据库,提供访问统计能力。 3、负责服务可用性评估,平台的开发及维护,建设服务健康度评估体系,推进各个业务提升可用性; 4、负责预案管理,故障恢复平台的开发及维护,预研故障自动化定位能力; 职位要求: 1、本科以上学历,1-3年以上相关工作经验,熟悉 Go/python/C/C++/Java 等编程语言中的一种或几种,了解数据结构与算法; 2、熟悉 Linux 系统,了解网络TCP/IP协议; 3、熟悉MySQL、ES、Redis、MongoDB 等数据库使用; 4、有较强的系统问题分析经验和能力,能够解决复杂的系统问题; 5、责任心强,追求效率,有良好的对外沟通能力、协作能力、学习能力与抗压能力; 6、有DevOps、CICD、监控系统、运维自动化系统开发经验者优先。
-
(一)运维自动化系统开发与维护 设计、开发和部署自动化运维脚本和工具,涵盖服务器配置管理、应用程序部署、监控告警、故障自愈等方面,减少人工干预,提高运维效率和准确性。 例如,利用 Python 语言编写脚本实现多服务器批量软件安装与配置更新,确保各服务器环境一致性。 开发自动化部署工具,结合容器技术(如 Docker、Kubernetes)实现应用的快速、可靠部署与弹性伸缩。 持续优化现有运维自动化平台和工具集,根据业务需求和技术发展趋势,引入新的技术和框架,提升系统性能和功能。 定期对自动化运维系统进行性能评估和瓶颈分析,通过代码优化、数据库调优、缓存策略调整等手段提升系统响应速度和处理能力。 研究并整合新兴的运维技术,如 Serverless 架构、云原生技术等,为运维团队提供更先进的解决方案。 (二)基础设施监控与管理 构建和完善 IT 基础设施监控体系,包括服务器、网络设备、存储系统等,实时采集性能指标、日志数据等信息,并通过可视化界面进行展示和分析。 部署和配置监控工具(如 Zabbix、Prometheus),定义监控指标阈值和告警规则,确保及时发现系统故障和性能异常。 开发监控数据可视化插件或定制化报表,为运维团队和其他相关部门提供直观、准确的基础设施运行状态视图,辅助决策制定。 负责基础设施容量规划和管理,根据业务增长趋势和历史数据,预测资源需求,提前规划和调整服务器、存储等资源配置,保障系统的高可用性和可扩展性。 定期对基础设施资源使用情况进行统计分析,建立容量模型,通过模拟和预测,为资源扩容或优化提供数据支持。 与采购部门合作,制定合理的硬件采购计划,确保在满足业务需求的前提下,控制成本并提高资源利用率。 (三)故障排查与处理 协助运维团队快速定位和解决系统故障,通过对监控数据、日志文件和系统状态的深入分析,找出故障根源,并提供有效的解决方案。 在系统出现故障时,及时响应并参与故障排查工作,利用技术手段(如调试工具、数据分析软件)快速定位问题点,如网络故障、服务器宕机、应用程序崩溃等。 针对常见故障类型,总结经验教训,制定故障排查手册和应急处理预案,提高运维团队整体故障处理能力和响应速度。 开发故障诊断工具和脚本,实现对系统潜在问题的自动检测和预警,提前发现并解决可能导致系统故障的隐患。 例如,编写脚本定期检查服务器硬件状态(如磁盘健康、内存使用情况)、应用程序关键进程运行状态等,在发现异常时及时发送告警信息,并提供初步的诊断建议。 (四)云计算与容器技术应用 参与企业云计算平台的架构设计和实施,熟悉主流云服务提供商(如 AWS、Azure、阿里云)的产品和服务,利用云原生技术构建和管理应用程序运行环境。 协助制定云计算迁移策略,将企业现有应用逐步迁移到云端,优化资源配置,降低运维成本。 深入研究容器编排技术(如 Kubernetes),负责集群的搭建、配置和管理,确保容器化应用的高效运行和动态扩展。 开发和维护与云计算、容器技术相关的自动化工具和脚本,实现云资源的自动化创建、配置和管理,以及容器化应用的持续集成 / 持续交付(CI/CD)流程自动化。 搭建基于 Jenkins、GitLab CI/CD 等平台的自动化构建和部署流水线,实现容器化应用从代码提交到生产环境部署的全自动化流程,确保开发团队能够快速、可靠地交付应用更新。 (五)与开发团队协作 与软件开发团队紧密合作,参与应用程序的设计和开发阶段,提供运维视角的建议和技术支持,确保应用在架构设计上具备良好的可运维性和扩展性。 在应用架构评审过程中,从运维角度对系统架构、技术选型、部署方案等提出意见和建议,如数据库架构优化、缓存策略设计、分布式系统部署方案等,避免因架构不合理导致的运维难题。 协助开发团队制定应用程序的监控指标和日志规范,确保在应用开发过程中能够充分考虑运维需求,便于后续的监控、故障排查和性能优化工作。 为开发团队提供自动化运维工具和平台的培训与技术支持,帮助开发人员了解和掌握运维流程和工具的使用方法,促进开发与运维的高效协同工作。 组织内部培训课程和技术分享会,向开发团队介绍运维自动化工具的功能和使用场景,如如何使用自动化部署工具进行应用发布、如何通过监控平台查看应用运行状态等。 为开发人员提供技术咨询和问题解答服务,及时处理开发过程中与运维相关的技术难题,确保开发工作的顺利进行。 (六)安全与合规性保障 协助制定和实施 IT 运维安全策略和规范,确保运维活动符合企业信息安全政策和行业法规要求。 参与安全漏洞扫描和风险评估工作,对运维系统和工具进行安全检查,及时发现并修复安全漏洞,防止数据泄露和恶意攻击。 制定服务器安全加固标准和操作流程,包括操作系统配置优化、用户权限管理、防火墙设置等,保障服务器和应用程序的安全运行。 开发和维护安全相关的自动化工具和脚本,实现安全漏洞检测、入侵检测与防御、数据加密等功能的自动化,提高安全运维效率和响应速度。 例如,编写脚本定期对服务器进行安全漏洞扫描,并与漏洞管理平台集成,实现漏洞信息的自动收集、分析和报告。 利用开源工具或自行开发脚本实现对网络流量的实时监测和分析,及时发现并阻止异常流量和入侵行为,保障网络安全。