-
岗位职责: 参与智能运维平台的场景分析、实施交付和运维工作: 1.负责智能运维相关平台的日常运维工作。 2.利用智能运维平台,基于运维监控、日志等数据,实现从故障监控、预警、告警到根因分析、故障自愈的AIOps场景落地; 3.负责系统工具开发工作。(具备python开发技能) 岗位要求: *****学信网可查本科,计算机科学相关专业,扎实的计算机基础,良好的学习能力,缜密的逻辑思维,享受探索新技术的过程; 1.两年以上系统运维或Python开发经验,有大数据类系统的开发运维经验优先;有AIOps项目研发实施经验者优先; 2.具有运营商行业的网管侧系统运维和IT系统运维经验优先。 3.具有认真负责的专业素养、积极主动的工作态度、有独立分析和解决问题的能力,以及良好的学习能力和团队合作精神。 4.具备良好的沟通能力和文档编写能力,能够与客户进行顺畅沟通和文档输出。 技术要求: 1.熟练掌握linux运维技术,熟悉shell脚本,可以辅助研发判断程序问题; 2.熟练掌握Python语言,并具备1年以上开发经验,具备 pandas库使用经验。 3.具备数理统计、SQL数据库原理相关知识; 4.熟悉hadoop相关技术(hdfs、hive、kafka、spark、flink、zookeeper、yarn等) 优先。
-
工作内容: 1、利用AI技术打造可观测系统的智能化,打造下一代AIOps智能运维系统; 2、将业务需求和算法解决方案有机结合,深度参与产品设计; 3、负责公司业务的监控项和告警项所产生的数据处理,涉及数据挖掘、异常检测、故障定位等前沿算法模型的研究及应用; 4、构建以核心运维数据为基础的智能化监控生态,包括但不限于智能检测、告警聚合、诊断归因、自动恢复等核心功能; 5、参与重点项目实施工作,协助售前/售后工程师开展场景分析、数据调研、算法应用实施工作; 6、负责机器学习在运维场景领域落地,包括算法/模型设计、开发、训练、验证及优化; 任职要求: 1、熟悉常用Linux命令,熟练掌握Java、Python 语言; 2、能够熟练使用Scikit Learn、Pandas、Numpy和Scipy开发框架; 3、具备优秀的编程能力,有出色的算法实现能力及调优经验; 4、对知识图谱,自然语言处理等业务有一定理解,熟悉NLP的常用算法,具有NLP相关项目实战经验; 5、具备良好的英文阅读能力,善于发现业界及学术界前沿技术,并加以改良和落地; 6、AIOps相关工作经验者优先,APM 领域相关工作算法工作经验者优先; 7、智能运维领域理论研究和实践经验,时序大数据处理经验者优先,熟悉常见的算法者优先;
-
信也科技【2025届领航者计划】 是一项面向全球TOP校园科技人才,致力于挖掘和培养用技术创造价值的「技术精英人才项目」。 项目优势 1、金牌师资培育:首席科学家带教、业务团队轮岗、校企联合实验室任职、人工智能领域领军专家密切合作、国际顶会投稿参会、国际算法大赛主办,多重培养助力你快速发展、高效成长; 2、核心业务实战:挑战当下最前沿的金融科技技术课题,在海量真实数据与超多落地场景中历练,技术难题攻坚,未来由你掌舵; 3、金融科技未来:在行业领先、数据驱动、为算法提供充足土壤的公司中工作,在自由务实、鼓励创新的研究氛围中成长,你的成就之旅、由此启航。 岗位职责: 1、 技术开发: 负责研究和应用大语言模型技术,基于智能运维场景提供创新解决方案; 开发、实施和推广大语言模型相关的应用,结合SRE体系持续提升系统稳定性; 利用前后端及大模型相关技术,参与应用系统的研发,确保高质量的代码输出和项目交付。 2、团队协作: 积极参与团队讨论,分享技术经验和最佳实践; 协助团队成员解决技术问题,提升团队的整体效率和协作能力。 3、项目管理: 学习并逐步承担项目管理职责,包括项目规划、任务分配、进度跟踪和质量控制; 协助部门负责人进行团队管理和建设,提升团队的凝聚力和战斗力。 任职要求: 1、教育背景: 计算机科学与技术、软件工程等相关专业硕士及以上学历;具备扎实的计算机基础。 2、技术能力: 对大语言模型的应用开发有深入的理解;熟悉Python编程语言,熟悉TensorFlow、PyTorch等主流大语言模型开发框架,并有相关的应用实践经验; 具备前、后端技术基础,掌握H5、JAVA等主流开发语言及平台,能够独立完成项目的开发工作。 3、管理潜力: 拥有较高的情商,善于沟通和团队合作,具备较强的跨团队沟通与组织协作能力; 具备一定的项目管理经验或潜力,愿意在技术和管理两个方向上发展,乐于接受挑战和不断提升自我,敢于创新,积极探索和应用新技术; 具有较强的学习能力和适应能力,能够在快速变化的环境中保持高效。
-
职位职责: ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、负责字节跳动全球超大规模数据中心的算法体系建设,支持供应链、AIOPS等关键业务场景; 2、搭建算法服务,参与相关数据开发,与产品、研发、数据团队合作,推动算法模型产品化及落地实施; 3、算法方向负责机器学习和运筹算法工作,场景包括但不限于:供需匹配、计划排程、需求预测、库存优化等; 4、算法方向负责智能运维相关算法工作,包括故障预测、智能预警、根因定位等; 5、算法方向负责大模型相关算法工作,包括基于特定业务场景微调和Agent智能体构建等。 职位要求: 1、2026届硕士及以上学位在读,计算机相关专业; 2、扎实的数据结构和算法基础,熟练使用Python、Java等其中一门编程语言; 3、熟悉常用的机器学习、运筹优化算法,包括分类/回归、时间序列、数学规划和启发式算法等,至少熟悉一种常见的机器学习/深度学习平台; 4、自驱力强,有钻研精神,深入理解业务,具备良好的团队合作精神和沟通技巧; 5、有机器学习相关的项目/竞赛经历优先。
-
职位职责: ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、负责字节跳动全球超大规模数据中心的算法体系建设,支持供应链、AIOPS等关键业务场景; 2、搭建算法服务,参与相关数据开发,与产品、研发、数据团队合作,推动算法模型产品化及落地实施; 3、算法方向负责机器学习和运筹算法工作,场景包括但不限于:供需匹配、计划排程、需求预测、库存优化等; 4、算法方向负责智能运维相关算法工作,包括故障预测、智能预警、根因定位等; 5、算法方向负责大模型相关算法工作,包括基于特定业务场景微调和Agent智能体构建等。 职位要求: 1、2026届硕士及以上学位在读,计算机相关专业; 2、扎实的数据结构和算法基础,熟练使用Python、Java等其中一门编程语言; 3、熟悉常用的机器学习、运筹优化算法,包括分类/回归、时间序列、数学规划和启发式算法等,至少熟悉一种常见的机器学习/深度学习平台; 4、自驱力强,有钻研精神,深入理解业务,具备良好的团队合作精神和沟通技巧; 5、有机器学习相关的项目/竞赛经历优先。
-
岗位职责: 1、负责公司产品S-Data智能运营平台解决方案销售,包括智能监控、AIOPS、数据运营可视化、业务自动化等的销售推广工作; 2、负责行业客户跟进,数据保护解决方案销售,产品包括:超融合产品、存储/备份软件、容灾系统软件、虚拟化软件、网盘等; 3、独立拓展客户,具备与“C-level” 沟通谈判的能力; 4、负责客户长期跟踪,挖掘客户需求; 5、组织并策划相关的市场活动,如行业会议、客户沙龙等。 任职要求: 1、大学本科及以上学历, 具有金融、计算机等专业背景优先; 2、优秀的沟通表达及领悟能力,良好的职业形象,有金融行业相关经验者优先; 3、优秀的应届毕业生可以择优录取。
-
阿里专有云APaaS团队,为专有云客户提供极致用云的解决方案与产品矩阵,帮助企业更好地管理IT服务和基础设施,提高运维效率、运维安全性以及业务连续性 岗位职责: 1、负责云+应用一体化运维平台的设计与实现,包括应用蓝图三态规划、自动化发布、扩缩以及应用容灾管理、应用资源编排等 2、基于五层全景拓扑设计并实现监管控一体化AIOPS运维平台,实现故障的快速发现、智能定位以及高效恢复的链路闭环 3、负责专有云统一CMDB、运维流程引擎、应用终态引擎、监控采集和计算引擎的设计与实现 岗位要求: 1、熟悉Java基础技术,包括IO、多线程、分布式、缓存、消息等机制;同时熟悉GO语言及K8S Operator开发和运维能力优先 2、熟悉Spring 、MVC等主流框架,熟悉Linux下的常用命令,熟悉MySQL等主流数据库 3、熟悉常用设计模式,最好有大型应用的开发经验,具备应对大数据、分布式、高并发、高负载、高可用性等系统设计能力 4、具备良好的抽象设计能力,思路清晰,善于思考,能独立分析和解决问题,责任心强,具备良好的团队合作精神和承受压力的能力
-
职位职责详细描述: 1、负责人工智能领域前沿技术的研究与实现; 2、参与人工智能、深度学习基础平台的选型、框架搭建和研发; 3、结合公司业务场景进行人工智能和机器学习的应用,包含:图像识别和NLP。 4、参与项目的落地开发,与开发团队合作完成模型应用和模型优化。 岗位要求: 1.具有3年以上Python开发经验,熟练使用常用库和模块;2.对人工智能技术感兴趣,了解AI领域的主要开源平台(如:TensorFlow、Caffe、MxNet等)及相关的算法组件(如:数据预处理、特征工程、统计分析、机器学习、深度学习等),有相关项目实践经验更佳;3.熟悉Docker、Kubernet等容器化技术;熟悉OpenStack;4.对AIOps相关概念和技术有掌握的,优先考虑。
-
岗位职责: 1.进行市场研究和用户需求调研,制定业务运维产品规划及实施路线图; 2.负责产品的设计实现、组织和推进产品开发与上线; 3.通过用户反馈、产品用户使用情况数据分析等方式,对产品的持续迭代和改进负责; 4.与运营、市场同事配合,共同达到产品预期效果; 5.参与产品的复杂项目实施方案设计; 6.支持产品销售过程,为售前、交付、售后同事提供必要的产品支持。 任职要求: 1.本科及以上学历 2.5年以上IT行业工作经验;3年及以上B端产品经理工作经验; 3.了解AIOps,熟悉Agent原理,熟悉常用的SQL,通信协议等优先; 4.熟练掌握常见原型工具,对交互设计有深刻认识; 5.良好的逻辑思维能力、学习能力、沟通协作能力和执行力; 6.对产品有热情,善于扮演团队推动者的角色。
-
【About Guance】 观测云成立于 2013 年 7 月,是由红杉资本、阿里巴巴、复星集团、张江高科、深创投、华业天成等知名投资机构投资的高新技术企业。 观测云的自研产品「观测云」,首批获得中国信通院颁发的「可观测性平台技术能力」与「根因分析技术能力」先进级认证,实现对云、云原生、应用及业务的统一监测需求,可为互联网、零售、金融等行业用户提供统一高效的数字化可观测服务。观测云作为一款数字化生产力工具,助力实现用数据驱动的现代软件工程体系,用可观测性改变软件全生命周期管理。 立足于云时代,观测未来将持续提升技术能力与服务质量,为中国 SaaS 基础软件的发展注入希望! 【What You’ll Do】 1. 负责观测云的产品工作,包括需求调研、行业分析、产品规划、产品设计等工作; 2. 与客户、前场团队紧密沟通,理解和分解平台的需求,落实到产品规划和设计中; 3. 与研发团队保持紧密合作,协调组织设计、开发、测试资源推动产品发布并项目落地; 4. 跟进产品关键数据指标和用户反馈,持续优化产品。 【Who You Are】 1. 本科以上学历,计算机相关专业优先; 2. 2 年云计算相关行业经验,1~3 年相关产品经验,具备从 0 到 1 落地产品的能力; 3. 有日志分析、链路追踪、用户访问行为分析、基础设施性能分析、拨测、AIOPS、混沌工程等相关产品或模块设计和主导经验,有相关产品成功落地案例优先; 4. 有客户端/服务端/前端开发经验者优先; 5. 有较强的产品 Owner 意识,良好的自我管理能力、逻辑思维、跨团队沟通协调能力; 6. 具备创新精神,用户价值导向、乐观、抗压能力强。 【Benefits and Growth】 1、0-4个月年终奖,投入有回报; 2、晋升可由部门推荐+个人自荐,鼓励挑战自我; 3、行业大牛多,快速成长,激发无限可能; 4、五险一金+定期体检,工作无后顾之忧; 5、超多带薪年假+下午茶零食+生日会+团建假+旅游假+育儿假; 5、弹性工作,人性化的企业文化; 6、持续的专业发展、高频的产品培训; 7、绩优员工期权激励计划。 上面列出的福利和成长可能会根据您工作所在的地区以及您在观测云工作的岗位而有所不同。
-
职位描述 1. 负责大语言模型的应用模式探索和落地,包括大不限于Agent,RAG,多模态等 2. 负责天基小蜜产品(基于LLM应用)在资源运维和运营等场景下的算法设计和优化,包括但不限于故障应急,人效优化,资源优化等 2. 负责日志数据和时序数据的特征挖掘,提升异常检测的准确率和召回率 3. 负责复杂故障场景下的多维度关联分析和根因定位的算法方案设计和实现 4. 负责智算资源的利用率分析和稳定性能力构建和应用 5. 结合以上方向的研究和实践,撰写发表论文,和业界、学术界保持良好的交流。 职位要求 1.计算机、数学或统计学相关专业硕士及以上学历; 2.熟练掌握Java/Python中至少一门语言,有扎实的数据结构和算法基础,具有良好的编程习惯; 3. 熟练掌握至少一种主流的深度学习框架,Pytorch,tensorflow等; 4.熟悉常用的机器学习算法,例如时序分析算法,日志分析算法等; 5. 熟悉LLM原理,训练和推理方案;了解大语言模型FT,HFRL,prompt调优等技术原理,了解RAG,Agent等应用模式和框架; 6.具备优秀的分析和解决问题的能力,良好的沟通协作能力; 7.有数据挖掘、机器学习、强化学习、信息检索、自然语言理解、AIOps等相关领域研究和实践经验,在以上领域的国际会议(SIGIR、SIGKDD、ICML、NIPS、WSDM、WWW、AAAI、CIKM、ACL、RECSYS)或者期刊上发表过论文者更佳; 8.参加过ACM或数据挖掘&机器学习类竞赛(天池大奖赛、Kaggle)并取得好名次者更佳; 9.参与过机器学习开源项目并有突出贡献者更佳。 https://careers.aliyun.com/off-campus/position-detail?lang=zh&positionId=1092401&track_id=SSP*************NgQOiNwbsL6144
-
职位描述 - 负责智能化运维平台的规划设计、实现及优化工作,带领研发团队研发先进的智能运维产品 - AIOps、SRE方向的前沿性研究、探索和落地 - 参与核心系统的设计和编码 - 主导技术方案和系统运维架构评审,掌握相关的技术架构和原理,能够从运维角度主动识别方案风险,并给出专业的解决方案 - 对研发团队的质量和效率负责 - 团队内部的技术培训与人才培养 - 跨团队的沟通、协调和协作 技术能力要求 - 深入理解计算机体系架构、linux内核、分布式系统架构、虚拟化技术、网络通信与系统编程至少2个方向以上技术 - 精通python,有大型项目开发经历 - 熟悉Docker/k8s容器平台及相关的底层技术和原理 - 熟悉Jenkins、Gitlab等,熟悉CI/CD流程制定与集成 - 有良好的网络、存储、安全等计算机体系结构方面的知识 - 具备丰富的大规模服务集群的运维经验和大型运维系统的设计能力和落地经验,高并发架构经验,熟悉高可用集群、负载均衡集群的规划与搭建 熟练掌握Redis、Kafka/RabbitMQ、Ceph/ElasticSearch等主流中间件(至少2个以上)的原理和使用 - 了解Hadoop/Spark/Filnk/Hive等大数据主流技术(至少2个以上) - 熟悉数据库技术(MySQL) 其他能力要求 - 技术领导力 - 团队协调力和执行力 - 有下面经历会有加分项: - 负责过运维体系层面的系统性规划和建设,有实践经验 - Django使用和开发经验 - Saltstack使用和开发经验 - airflow使用和开发经验 - AIOps系统设计研发经验
-
工作职责1.依托公司千万级用户数据,挖掘重点场景,利用AI/机器学习,优化算法,总结客户洞察,增加客户忠诚度,提升客户价值;2.参与大部门大数据算法平台建设工作,搭建开源的算法平台;3.跟踪物流行业的机器学习、深度学习算法理论进展,并将优秀的算法应用到业务场景中,提升业务数据应用价值。任职资格本科以上学历,计算机/数学/人工智能/统计/运筹学专业,有扎实的数据结构和算法功底;有特征工程、数据建模、机器学习等相关基础。1、5年以上算法开发经验,熟练/精通Python/Java语言,熟悉基本的Linux指令,有扎实的编码能力将算法落地工程化;2、熟悉常用数据挖掘算法(聚类/分类/回归/关联规则/图模型)等算法原理,具备实际的建模经验,熟悉常用机器学习算法原理,如朴素贝叶斯/决策树/随机森林/逻辑回归/SVM等,并具备相关应用经验;3、熟悉hadoop/spark分布式计算平台,具有基于hive/hbase/spark的实际开发经验;熟练使用spark mlib框架;4、具备较强的商业和数据敏感度,尤其对于物流行业业务有较好了解,有良好的理解能力,沟通表达能力和独立专业报告的能力;5、有AIOps、OCR、NLP、知识图谱相关项目经验者优先考虑。
-
岗位职责: 1、负责基础设施的运维管理与维护,包含服务器管理,集群管理,存储管理,监控管理,SLA管理; 2、负责运维制度规范的梳理和制定,让运维操作和流程更加标准,可控; 3、负责与工具研发团队对接,推动运维操作与流程的平台化; 4、负责基础设施稳定性体系建设,包括系统/硬件/存储的故障预防,故障发现、故障应急、故障预案,故障演练等; 5、负责服务器,存储,备份的部署与维护,巡检,操作变更,升级,安全加固等; 6、负责linux/windows操作系统的维护管理,包含登录与权限管理,系统基线,系统服务,以及常规性能分析与系统问题排查; 7、负责运维自动化脚本的编写,部署,更新,管理; 8、负责运维行业前沿技术的调研与引入(如AIOps,DevOps,FinOps等); 任职要求: 1. 5年以上工作经历,本科及以上计算机相关专业,有大规模运维架构管理经验优先 2. 精通华为、H3C、浪潮等主流服务器/存储/备份等硬件管理(如BIOS,BMC,IPMI, Console, 架构,监控,维修) 3. 精通华为FusionCompute/FusionAccess/VMware/KVM/Xen/OpenStack/K8S等产品或技术 4. 精通华为OceanStor存储产品,熟悉IPSAN,FCSAN等存储技术,了解存储系统、SAN和NAS的基本原理以及数据灾备技术 5. 熟悉Linux/windows系统日常管理命令、服务(NTP,SYSLOG,DNS,FTP等)、性能分析(CPU/MEM/IO/NETWORK) 6. 熟练使用shell/powershell/sed/awk/perl/python/go/java/c 至少一种语言 7. 熟悉主流云厂商产品(ECS/RDS/OSS/SLB等),能够基于云产品进行运维架构设计与管理 8. 熟悉常见的运维管理架构(账权,批量,安全等), 有故障预防,监控,发现,排查与处理经验
-
主要职责: 1. 负责公司项目系统建设涉及中间件、容器、监控和备份提供建设性意见。 2. 参与相关系统的技术/问题攻关。 3. 责任系统的应用运维,对系统的SLA负责。 4.对系统可用性负责,精通各类监控运维工具。 任职资格: 1. 3年以上IT相关系统运维经验 2. 熟悉高可用/并发/负载的Web架构设计, 容器、中间件、日志、监控、备份等管理与维护 3. 至少精通两种以上主流数据库(Oracle、SQL Server、MySQL、Redis等 )的配置、备份、优化、监控、管理,安装、部署、运维及集群技术; 4. 熟悉 Linux 操作系统,如常用命令、文件系统、系统配置等,具有较强的故障定位和问题解决能力,有丰富处理重大故障的经历。 5.熟悉脚本语言,对主流运维技术领域有一定使用经验。 6. 具有较强的沟通能力及积极主动性. 7.精通主流的中间件具备优秀的运维管理能力。 8.精通主流的运维工具,如:备份、Devops、Aiops等平台的维护。 9.良好的需求阅读和理解能力,熟练编写开发文档。