-
岗位职责: 1.负责电商平台(包括网站和APP)的数据采集,制定高效、稳定的爬取方案,并确保数据完整性和时效性; 2.研究并绕过电商平台的反爬机制,包括验证码识别、IP封锁、JS混淆、动态加载等,提升爬虫的稳定性和成功率; 3.进行APP逆向分析,利用反编译、静态分析、Hook等技术破解数据加密、API接口加密等防护措施; 4.设计、开发和优化爬虫架构,提高数据抓取效率,优化爬虫并发、任务调度、代理池、分布式爬取等模块; 5.使用AI爬虫技术(如自动化识别网页结构、智能解析动态内容等)优化数据获取流程; 6.研究HTTP、TCP等网络协议,进行数据抓包和分析,构建高效的抓取策略; 7.编写清晰的技术文档,记录逆向工程的过程、反爬破解策略及优化方案; 8.持续关注行业发展趋势,优化爬虫系统,并结合AI技术提升数据采集的自动化和智能化程度。 任职要求: 1.本科及以上学历,计算机科学、软件工程、网络安全等相关专业,3年以上爬虫开发经验; 2.熟练掌握Python爬虫开发,精通Scrapy、Selenium、Playwright、Requests等爬虫框架和工具; 3.熟悉HTTP、TCP等网络协议,具备抓包分析能力,掌握Burp Suite、Wireshark等工具; 4.深入理解反爬技术,具备丰富的应对经验,包括但不限于代理IP池、浏览器指纹模拟、验证码识别(OCR、打码平台)、动态加载解析等; 5.具备APP逆向工程经验,熟悉APK反编译、静态分析、动态调试(Frida、Xposed等),能绕过API加密、代码混淆等安全策略; 6.了解ARM指令集,有反汇编、调试能力,能处理花指令、代码混淆等复杂场景; 7.近一年内,有百万级以上电商数据采集经验,有主流电商平台或电商类APP爬取项目经验者优先; 8.具备优秀的代码编写能力、良好的工程化思维和团队协作能力,能够编写高效、可维护的爬虫代码。 加分项: 有电商平台(如Amazon、shopee、Rakuten、Lazada等)爬虫经验者优先; 有大型分布式爬虫架构经验,熟悉Redis、Kafka、RabbitMQ等任务队列调度机制; 具备AI爬虫经验,熟悉自动化网页解析、深度学习OCR识别等技术; 了解MLOps、大数据存储、数据清洗技术,能与数据工程师协同优化数据处理流程。
-
大数据平台部 主要负责大数据基础设施建设,其中包括:全网爬虫平台、数据加工平台(结构化、清洗、关联)建设与维护等,团队追求**的系统性能,对各种大数据技术有深入的研究和应用,比如Kafka、ES、Redis 等。我们欢迎对技术有高追求,抗压能力强,具有工匠精神的技术大牛加入。 工作职责: 1、软件系统相关功能设计和实现,如分布式爬虫,通用加工平台。 2、现有系统的增强和维护,如内存优化,性能提升。 任职要求: 1.本科以上学历,计算机软件或相关专业; 2.三年以上Java/J2EE开发经验,具备扎实的Java基础。理解面向对象、面向服务编程 ,并可以灵活运用。 熟练使用SpringBoot、Kafka、redis等开源框架,并深入理解其框架实现模型。 具备面向对象分析、设计、开发以及对问题排错能力,对分布式网络编程有深入了解。 具备较强的学习能力及沟通能力;对业务有较强的理解能力 3.性格要求:具有良好的沟通能力与团队合作能力;性格开朗,勇于挑战;良好的人际关系,对技术有更高的追求; 基于云计算的分布式爬虫平台,会接触到大数据数据处理和传输,分布式处理,大数据存储等最新的技术。要求有jvm调优经验 开发者优先。
-
wind平台部 主要负责大数据基础设施建设,其中包括:数据加工平台(RPA、结构化、清洗、关联)、通用入库等服务的建设与维护等; 挑战性在于大数据量和低延迟要求下,服务需要保证高可用性和高吞吐量。需要对各种大数据技术有一定的了解和应用,比如Kafka、ES、Redis 、HBASE等。 工作职责: 1、软件系统相关功能设计和实现,如分布式爬虫服务端,通用去重服务,通用加工平台,通用入库服务。 2、现有系统的增强和维护,如内存优化,性能提升。 任职要求: 1、本科及以上学历; 2、三年以上Java/J2EE后端开发经验,具备扎实的Java基础(多线程、JVM)。熟练掌握SpringBoot、MQ(主要是Kafka,如果深入了解其他MQ也可以)并理解其实现原理;了解并使用过redis、es、hbase等开源框架。 3、代码风格良好,对性能,内存有更高的追求。 4、具备较强的学习能力及沟通能力;对业务有较强的理解能力 有分布式系统设计,线上问题分析、调优经验的开发者优先;
-
岗位描述 1.负责分布式爬虫开发,数据采集采集、基本数据清洗、调度、监控、自动化运行等; 2.负责平台平**控调研与处理解决; 3.负责主流APP逆向破解工作,熟悉java/python/c/c++,能够及时解决常见的APP反编译、脱壳、加密参数破解等问题; 任职要求 1.学历不限 2.近半年内 有大规模 抖音/快手/淘宝/天猫/美团/拼多多 采集经验者 优先(有其一即可) 3.抖音/快手有做过实时直播采集,淘宝/天猫 日采集详情数据超200万,美团能够采集外卖商超,拼多多日采集详情超3万,满足其一即可 3.有丰富的逆向工程经验,有 抖音/快手/淘宝/天猫/美团/拼多多 APP逆向 经验者 优先 4.熟练使用Python分布式爬虫框架,如scrapy/pyspider,有其一即可 5.逻辑思维清洗,有责任心,善于学习与专研,有良好的团队合作意识与沟通能力;
-
工作职责: 1、打造国内/外全域的短视频数据抓取和实时监控能力; 2、设计和优化分布式爬虫集群系统,高效的内容发现、解析和存储方案; 3、模拟真实用户行为,采用手机群控等创新技术突破爬取难题; 4、与其他团队紧密协作,集成爬虫输出,支持不同业务诉求。 任职要求: 1、大规模分布式系统和网络爬虫开发经验; 2、精通Python、Go等编程语言,熟悉爬虫相关框架和工具; 3、深入了解平台反爬虫策略及对应的防护和绕行方法; 4、熟悉手机群控、Root手机等移动端爬虫前沿技术; 5、优秀的系统架构设计和性能优化能力; 6、数据质量管理意识,重视隐私、版权保护。
-
职位描述: 1、参与爬虫项目的架构设计、研发、编程工作,改进和提升爬虫效率; 2、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量; 3、负责网页采集任务的分析及采集方案设计; 4、负责分布式爬虫策略持续优化。 任职要求: 1、熟悉Java、Python、Shell、R 等至少一门语言; 2、负责分析并采集网站数据,并按照要求对采集的数据进行整理; 3、具有较强的业务分析能力,较好的沟通表达和综合协调能力; 4、责任心强,有快速学习能力,对大数据方向感兴趣。 福利: 大数据行业 热门商圈 弹性工作 远程工作
-
岗位职责: 1. 熟悉搜索引擎和网络爬虫相关技术,有爬虫系统开发经验; 2. 熟练掌握网页抓取原理及技术,熟悉网页解析过程,具备数据的过滤、清洗、去重、结构化导入经验; 3. 熟悉分布式爬虫应用和调度策略,掌握各类网站的反爬机制和验证码机制; 4. 熟悉TCP/IP协议及HTTP协议,了解基本的前端技术,HTML、CSS、JS、Ajax等; 5. 熟练使用mysql,mongodb等数据库,熟悉mysql的各种存储引擎,熟悉索引工作原理。 任职要求: 1. 大学本科及以上学历,计算机相关专业,基础扎实; 2. Python开发工作经验1年以上,熟悉Python常用函数库和包; 3. 熟练掌握python,熟悉常用爬虫框架中的一种或多种,熟悉Scrapy、Pyspider框架中的至少一种; 4. 熟悉MySql、Redis、MongoDB等数据库,对SQL优化有一定的经验; 5.熟悉网页抓取原理及技术,熟练掌握正则表达式、XPath、CSS等网页信息抽取技术; 6.具有优秀的团队合作和沟通协作能力,善于学习,能承受较大的工作压力。
-
岗位职责: 1. 熟悉搜索引擎和网络爬虫相关技术,有爬虫系统开发经验; 2. 熟练掌握网页抓取原理及技术,熟悉网页解析过程,具备数据的过滤、清洗、去重、结构化导入经验; 3. 熟悉分布式爬虫应用和调度策略,掌握各类网站的反爬机制和验证码机制; 4. 熟悉TCP/IP协议及HTTP协议,了解基本的前端技术,HTML、CSS、JS、Ajax等; 5. 熟练使用mysql,mongodb等数据库,熟悉mysql的各种存储引擎,熟悉索引工作原理。 任职要求: 1. 大学本科及以上学历,计算机相关专业,基础扎实; 2. Python开发工作经验1年以上,熟悉Python常用函数库和包; 3. 熟练掌握python,熟悉常用爬虫框架中的一种或多种,熟悉Scrapy、Pyspider框架中的至少一种; 4. 熟悉MySql、Redis、MongoDB等数据库,对SQL优化有一定的经验; 5.熟悉网页抓取原理及技术,熟练掌握正则表达式、XPath、CSS等网页信息抽取技术; 6.具有优秀的团队合作和沟通协作能力,善于学习,能承受较大的工作压力。
-
负责为海外音乐项目搜索采集数据,为团队的海外运营提供决策支持(自有项目,非乙方)。 岗位职责∣Responsibilities: 1、熟练掌握Python,熟悉Linux开发环境; 2、负责设计和开发爬虫,精通海外网页(Youtube、Spotify、Google...)抓取原理及技术,从各种web页面、APP中获取目标信息; 3、解决技术疑难问题,包括各种反爬、压力控制等;提升网页抓取的效率和质量。有能力解决封账号、封IP、验证码识别、图像识别等问题,有能力解决复杂的反爬限制; 4、大规模爬虫系统的设计、数据REST API的设计、开发、维护、调优,第三方数据源的对接、预处理、入库; 5、分析结构化和非结构化数据,并对数据抓取、信息提取、去重、清洗;不限于使用代码规则类进行数据清理; 6、开发代码的维护更新,Linux服务器的维护,文档维护; 7、支持部门数据需求,包括但不限于搜索数据来源、数据清洗、数据挖掘、为团队提供决策支持; 履职要求∣Requirements: 1、大学本科及以上学历,计算机相关专业,基本的英语阅读能力; 2、耐心、细心,有较强的逻辑思考能力和良好的工作习惯,态度认真负责; 3、有三年及以上的爬虫、数据处理、数据分析经验,有大数据爬虫经验尤佳;有音乐行业经验优先; 4、熟练掌握Python,HTML,JS/CSS等技术;熟悉scrapy,feapder等爬虫框架,有分布式爬虫经验;熟悉正则、xpath等提取方法; 5、熟悉常见的反爬虫技术如文本混淆、验证码、加密破解,api限制等;精通网页抓取原理及技术,熟悉MySQL、Redis、Postgrep等;熟悉Internet基本协议 (如TCP/IP、HTTP等) ; 6、熟悉Linux环境,使用脚本开发维护Linux服务器; 7、具有良好的表达能力,团队合作能力;具有很强的责任心,乐于挑战,有较强的深入学习理解业务的意愿;
-
【岗位职责】: 1、负责设计和开发网络爬虫系统,完成关键信息的数据抽取、清洗、去重、分析等: 2、负责爬虫相关技术的研究和实现工作,比如APP破解、小程序破解、分布式爬虫、验证码破解、JS逆向反爬机制的研究等: 3、负责公司爬虫的核心算法以及策略优化,熟悉采集系统的调度策略: 4、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量: 5、实时监控爬虫的进度和警报反馈,提升爬虫系统稳定性、可扩展性; 6、有良好的编码能力,逻辑思维缜密,能独立分析解决问题。 【任职要求】 1、本科及以上学历,计算机相关专业: 2、至少3年及以上爬虫经验: 3、精通Python语言,具有扎实的计算机基础和编程能力,熟悉常见的算法与数据结构,具有优秀的逻辑思维能力; 4、熟悉Mysql,redis,有过数据库调优和海量数据存储经验优先; 5、熟悉常见的反爬机制,并对反爬具有一定的应对措施策略且有一定研究: 6、熟悉APP逆向、JS逆向、验证码破解、图像识别等技术; 7、熟悉常用网络协议、数据存储和数据处理技术。 8、熟悉linux系统环境、命令,shell、python脚本编写; 9、熟悉常见爬虫框架(如Scrapy),有大规模爬虫系统开发经验; 10、有机票行业从业经验优先。
-
非杭州伙伴可以线上办公!!! 岗位职责: 1.爬虫开发、与内部系统后端开发对接;负责爬虫系统构架的数据存储设计; 2.建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 3.理解系统数据处理流程以及业务功能需求; 4.保证数据的完整性和准确性。 岗位要求: 1、熟悉js逆向、js注入、反混淆、熟悉jsRPC服务; 2、计算机相关专业专科及以上学历(有项目经验可以放宽); 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、有一定的反爬虫对抗经验,分布式爬虫布局; 5、电商类网站爬虫经验优先,有高频爬虫工作经验者优先; 6、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先。
-
任职要求: 1. 本科及以上学历 2. 有Python爬虫相关经验,有web端JS逆向经验,熟练使用Scrapy框架 3. 熟悉HTML、XPath、正则表达式、AJAX、HTTP协议等 4. 熟悉MySQL、NoSQL等,了解Git版本管理工具 5. 熟悉分布式爬虫以及各种抓包工具 6. 熟悉消息队列,如rabbitmq,kafka等 加分项: 1. 有GUI工具pyqt开发经验 2. 有app逆向开发经验,熟悉ast,frida,objection,能够独立逆向小程序,app等 3. 有爬虫平台相关开发经验,如xxljob等
-
工作职责: 1、独立负责网络爬虫系统的设计与开发; 2、负责和业务沟通抓取需求,满足业务的发展需要; 3、负责大数据产品所需网站的信息抓取、解析、清洗等研发与优化工作; 任职要求: 1. 计算机或相关专业,本科及以上学历; 2. 熟悉软件工程,熟悉常用数据结构和算法; 3. 熟悉Python语言 、掌握爬虫框架scrapy , 熟悉分布式爬虫管理框架Gerapy, 爬虫管理scrapyd ,分布式爬虫scrapy-redis 4. 熟悉Linux操作系统以及shell脚本; 5. 熟悉HTML,JavaScript,xpath,css selector,熟悉HTTP协议; 6. 英语水平达到CET6或以上; 7. 工作细心,认真负责,具备较强的学习能力; 8.了解Git版本管理工具。
-
【岗位职责】 1.负责爬虫的开发及优化迭代改进,设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。 2.负责样本数据分析,并开发和优化已有的文本挖掘及统计算法。 3.负责应用经典的推荐算法,优化推荐效果。 【岗位要求】 1.计算机、数学、统计等相关专业,本科及以上学历。 2.精通Python,3年以上Python开发经验。有Flask、Tornado、Django等Web框架实际项目经验。 3.熟悉多线程、多进程编程,有高并发项目经验。 4.熟练使用正则表达式。 5.熟悉mysql、redis、ES、mongo等常用数据库。 6.熟练使用pandas、numpy等数据分析框架、熟悉pytest单元测试。 7.熟练使用git工具。 8.熟悉linux常用命令及docker部署。 9.有分布式爬虫和数据采集系统的架构设计和开发经验。 10.了解常见的机器学习算法以及TensorFlow等主流框架。 11.熟悉经典的推荐算法。 12.具备高度责任感,良好的沟通协作能力。 具有独立开展和完成工作的能力。
-
一、岗位职责 1、负责爬虫和数据采集系统的维护和开发; 2、负责网络数据抓取规划、清洗以及汇总的开发工作; 3、定期爬取指定网站的数据,为业务部门提供数据支持; 二、任职要求 1、不低于一年的爬虫经验; 2、掌握Python,掌握爬虫技术,熟悉Python主流类库使用; 3、熟悉Scrapy、requests、Selenium等框架(深入了解其中一种); 4、熟悉基于正则表达式、XPath、CssSelector、beautifulsoup等网页信息解析技术; 5、有分布式爬虫、反爬机制经验者优先