-
平时可以阅读英文的计算机API文档,并且需要有一定的Java基础。对爬虫抓网页的工作内容感兴趣,如果不符合以上条件,请勿投递,谢谢。 工作职责: 1、IOS, Andriod APPs以及网站的逆向分析及漏洞挖掘,并对逆向数据进行采集抓取; 2、爬虫策略和防屏蔽规则,提升网页抓取的效率和质量; 3、有过Akamai,Perimeterx经验的优先; 任职需求: 1、应届毕业生,熟练掌握Java语言; 2、熟悉IDA、 JEB 、LLDB、JADX等常用逆向分析工具,具备逆向分析能力; 3、熟悉各种通用加解密算法,有一定的脱壳反混淆,反调试经验; 4、熟悉常见的Xposed hook技术,注入技术,常见安全产品绕过等技术; 5、做事有责任感,具有良好的逻辑思维,很强的执行力和自我驱动力。 【福利政策】 1、混合办公模式,根据工作年限每月可申请居家办公2-8天。 2、10天- 25天带薪年休假; 3、13薪及每年全员调薪,根据入职时间、工作表现和企业经营状况; 4、补充医疗保险及每年健康体检; 5、旅游补贴及公司团建; 6、每周供应2次免费午餐; 7、节假日礼品卡福利及节日下午茶供应。
-
职位职责: 1、为字节跳动抖音、电商等业务线的反爬效果和指标负责,解决业务痛点问题; 2、提升业务风险感知能力,结合具体场景,数据指标,主动发现问题并提出解决方案,对业务风控效果负责; 3、推动智能化产品落地,不断提升平台化能力,提高风控效率; 4、研究新的产品动向和前瞻探索,借鉴业界的新思路持续优化产品策略,使反爬处于行业领先水平。 职位要求: 1、本科及以上学历,责任心强,思维逻辑严谨,对数据敏感; 2、有互联网风控策略制定经验,从事过反爬虫、流量反作弊方向工作; 3、有互联网安全策略管理经验,包括但不限于风险发现、制定模型或策略、推动方案落地; 4、1年以上策略产品或数据分析工作经验;熟练掌握大数据分析工具使用,不限于SQL/PySpark/Flink等; 5、具备攻防思维,熟练掌握常见的反爬虫技术和数据安全风险。
-
岗位职责: 1、负责设计、开发、维护爬虫系统; 2、参与多平台信息的抓取和分析; 3、建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 4、设计爬虫反屏蔽规则,提升网页抓取的效率和质量; 5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。 任职资格: 1、熟悉RUST语言,熟练掌握js反混淆,有实操经验优先; 2、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先; 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、熟悉 web/app 常见的反爬机制,精通各种反爬破解,包括但不限于:Js防护、混淆、逆向分析、App防破解、防逆向、加固技术等技能; 5、有电商类网站爬虫经验优先,有高频爬虫工作经验者优先。
-
岗位职责: 1、负责抖音/淘宝/拼多多/1688等热门电商平台的爬取工作,包括数据抓取和爬取链路优化,提升抓取能力; 2、负责反爬虫策略研究,代理IP、验证码识别等采集支撑服务建设; 3、负责大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作。 任职要求: 1、三年以上大规模爬虫/反爬经验,熟悉HTTP协议/浏览器原理/前端JS/APP抓取; 2、有解决复杂的反爬限制实践经验, 能解决如图片验证码/滑块/账号限制/ip限制等问题,熟悉反爬虫、签名破解、验证码识别技术者优先; 3、熟悉app端数据抓取(有逆向、脱壳等经验),掌握Apktool、dex2jar、JD-GUI、frida、ida等工具,能独立完成主流电商平台和主流app软件大量级的数据抓取优先; 4、有电商数据爬虫经验优先。
-
岗位职责: 1.负责网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取),技术选型; 2.研究爬虫策略和防屏蔽规则,解决封账号,封IP,验证码,混淆加密,页面跳转等难点攻克,提升网页抓取效率和质量。 任职要求: 1.熟练掌握Python语言,有良好的编码习惯。 2.熟悉HTML,JavaScript,xpath,css selector,熟悉HTTP协议;熟悉WebDriver,phantomjs等工具; 3.掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;有解决封账号、封IP、网页抓取、信息抽取等问题的经验 4.熟悉mysql,redis,mongodb,ES等数据库,以及对应数据的抽取入库等; 5.熟悉正则表达式、Xpath等数据提取技术。 6.了解常见的爬虫对抗技巧 7.了解抓包工具、如Fiddler、Charles、Mitmproxy 8.熟悉python web后端框架Django、flask、fastapi其中的一种优先 9.熟悉Linux常用命令、docker容器技术和git技术者优先; 有API对接经验优先 10.能对目前主流网站、APP数据进行抓取,有外贸跨境商城,抖音,小红书爬虫经验者优先。 11.有RPA、手机端自动化、浏览器自动化、PC自动化开发经验的优先 薪资待遇: 8K-13K;****。 上班时间: 上午 : 9:30-12:00;下午 13:30-19:00;
-
职位描述: • 负责分布式网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取,海量数据存储和读取等)、技术选型 • 研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点攻克,提升网页抓取的效率和质量 • 把握网络爬虫核心技术研究方向,研究优化策略,提升爬虫系统的稳定性、可扩展性 • 管理并带领爬虫团队完成社交媒体数据(文本、视频、音频和图像)开发工作 职位要求: • 深度参与过至少一个分布式网络爬虫系统的架构设计; • 良好的代码能力,扎实的数据结构和算法功底,有快速迭代、逐步优化的工程项目经验 • 精通爬虫和反爬技术,精通底层协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取、APP抓取等技术 • 熟悉分布式系统、多线程,精通scrapy框架以及原理,有开发爬虫框架经验 • 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验 • 有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,善于跨团队合作 • 良好的逻辑能力,善于把复杂问题梳理清晰,责任安排到人,完成情况监督到位
-
网络信息安全,爬虫,攻防,全栈技术工程师
-
工作职责: 1、打造国内/外全域的短视频数据抓取和实时监控能力; 2、设计和优化分布式爬虫集群系统,高效的内容发现、解析和存储方案; 3、模拟真实用户行为,采用手机群控等创新技术突破爬取难题; 4、与其他团队紧密协作,集成爬虫输出,支持不同业务诉求。 任职要求: 1、大规模分布式系统和网络爬虫开发经验; 2、精通Python、Go等编程语言,熟悉爬虫相关框架和工具; 3、深入了解平台反爬虫策略及对应的防护和绕行方法; 4、熟悉手机群控、Root手机等移动端爬虫前沿技术; 5、优秀的系统架构设计和性能优化能力; 6、数据质量管理意识,重视隐私、版权保护。
-
职位描述: 1、参与爬虫项目的架构设计、研发、编程工作,改进和提升爬虫效率; 2、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量; 3、负责网页采集任务的分析及采集方案设计; 4、负责分布式爬虫策略持续优化。 任职要求: 1、熟悉Java、Python、Shell、R 等至少一门语言; 2、负责分析并采集网站数据,并按照要求对采集的数据进行整理; 3、具有较强的业务分析能力,较好的沟通表达和综合协调能力; 4、责任心强,有快速学习能力,对大数据方向感兴趣。 福利: 大数据行业 热门商圈 弹性工作 远程工作
-
岗位职责: 1、维护优化爬虫系统 2、满足公司数据的爬取需求; 3、参与爬虫项目的架构设计、研发、编程工作,改进和提升爬虫效率 岗位要求: 1、2年以上工作经验; 2、深入理解python的常用的爬虫框架; 3、熟悉正则表达式、xpath、css、html等网页相关基础知识,具有一定的web逆向能力; 4、熟悉MySQL、Redis数据库; 5、熟悉Flask接口编写 6、有参与研发爬虫中台经验优先。
-
总目标:制作一个用于电脑使用的小型搜索器软件或者浏览器插件、拓展程序,实现能够完成上述初步查询20000个生物品种的查询、筛选、整理工作。 搜索器的主要要求: 1、 总目标是可以实现按照关键词以及特殊字符(比如图片或是化学结构式)在谷歌进行自动搜索,每次搜索结果的前200条链接的网址内容进行全部爬取,包括网页链接页面的分页和外部链接的全部内容。(很多是外网网址,公司地址在国内,自己有VPN,没有服务器)。一个关键词搜索到的内容可以自动保存在一个word或文件夹,而且要做到去重。 2、 搜索的关键字字符可能有几十种包括中英文以及其他小语种的特殊字符,搜索的网页内容语言主要是中英文,还会有少量西班牙语,葡萄牙语,法语,日语等等。 3、 当搜索出来的不是网页,比如说是PDF或其他文件格式要保存到同一文件夹里,尽量保证可以把爬取页面上附带的WORD和PDF文件也爬取下来,如果涉及到某些论文无法爬取,则需要把论文摘要内容爬取下来。当有些网址实在是不能爬取的时候可以截图保存到文件里。 4、 搜索到网站后,能初步分析和判断,按关键字将内容进行归类;(按精确匹配或模糊匹配分),需要搜索某种产品的物化性质、结构式、应用、生产经营企业信息等,就要进行分析,进入下一层(有可能再进入下一层),把相关的所有信息全部保存下来。 5、 可以按照我方要求,主动设置文件夹、word文件格式,并整理文件资料、存储独立文件,如照片、PDF文件和其它独立格式文件,保存的word文件需要自行筛选掉重复信息。 6、 一周内可以达成6000个生物品种的查询筛选整理工作。 7、 从网站下载的信息需要是以word文件的格式下载保存,主要保存网站页面的文字信息,保存的内容要附上具体的网址,不同板块的信息内容需要添加空格隔开。将具体网址设置为小标题方便我们快速找到每个网址的内容。 8、 文字部分最终的目的是把不同网站的内容关于某一个品种的内容进行总结自动去重后,把各个网站关于这个品种的内容收集到一个word文件里总结,并且筛选出其中不同的信息。 9、 比较理想的情况是可以做一个独立的软件,但是如果比较难实现可以做成浏览器的插件或者拓展,只要能达到前面提到的收集资料的要求即可。 10、 文字搜索部分的工作工期工期为签约后的一周,签约后付定金,交付后的调试时间为3天,程序运行验收没问题付清尾款。
-
非杭州伙伴可以线上办公!!! 岗位职责: 1、负责设计、开发、维护爬虫系统; 2、参与多平台信息的抓取和分析; 3、建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 4、设计爬虫反屏蔽规则,提升网页抓取的效率和质量; 5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。 任职资格: 1、熟悉GO或者RUST语言,熟练掌握js反混淆,有实操经验优先; 2、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先; 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、熟悉 web/app 常见的反爬机制,精通各种反爬破解,包括但不限于:Js防护、混淆、逆向分析、App防破解、防逆向、加固技术等技能; 5、有电商类网站爬虫经验优先,有高频爬虫工作经验者优先。
-
【工作职责】 1.根据公司项目要求完成模块详细设计和编码实现; 2.保证项目系统的高性能和高可用以及代码质量和维护性; 3.落实承接项目相关技术文档的整理和维护。 【任职要求】 1.2年以上网络相关开发工作经验; 2.了解大语言模型的网络架构,熟悉glm、百川等开源性项目; 3.较强的编码能力,熟悉Python 开发语言、Linux 操作系统和 Docker 工具链; 4.具备较强独立分析、解决问题的能力,能够承受较大的工作压力,学习沟通能力强,具有团队合作精神和创新意识,乐于接受技术革新,保持技术更迭; 5.具备良好的客户服务意识及团队协作精神。
-
【工作职责】 1.根据公司项目要求完成模块详细设计和编码实现; 2.保证项目系统的高性能和高可用以及代码质量和维护性; 3.落实承接项目相关技术文档的整理和维护。 【任职要求】 1.2年以上网络相关开发工作经验; 2.了解大语言模型的网络架构,熟悉glm、百川等开源性项目; 3.较强的编码能力,熟悉Python 开发语言、Linux 操作系统和 Docker 工具链; 4.具备较强独立分析、解决问题的能力,能够承受较大的工作压力,学习沟通能力强,具有团队合作精神和创新意识,乐于接受技术革新,保持技术更迭; 5.具备良好的客户服务意识及团队协作精神。
-
负责为海外音乐项目搜索采集数据,为团队的海外运营提供决策支持(自有项目,非乙方)。 岗位职责∣Responsibilities: 1、熟练掌握Python,熟悉Linux开发环境; 2、负责设计和开发爬虫,精通海外网页(Youtube、Spotify、Google...)抓取原理及技术,从各种web页面、APP中获取目标信息; 3、解决技术疑难问题,包括各种反爬、压力控制等;提升网页抓取的效率和质量。有能力解决封账号、封IP、验证码识别、图像识别等问题,有能力解决复杂的反爬限制; 4、大规模爬虫系统的设计、数据REST API的设计、开发、维护、调优,第三方数据源的对接、预处理、入库; 5、分析结构化和非结构化数据,并对数据抓取、信息提取、去重、清洗;不限于使用代码规则类进行数据清理; 6、开发代码的维护更新,Linux服务器的维护,文档维护; 7、支持部门数据需求,包括但不限于搜索数据来源、数据清洗、数据挖掘、为团队提供决策支持; 履职要求∣Requirements: 1、大学本科及以上学历,计算机相关专业,基本的英语阅读能力; 2、耐心、细心,有较强的逻辑思考能力和良好的工作习惯,态度认真负责; 3、有三年及以上的爬虫、数据处理、数据分析经验,有大数据爬虫经验尤佳;有音乐行业经验优先; 4、熟练掌握Python,HTML,JS/CSS等技术;熟悉scrapy,feapder等爬虫框架,有分布式爬虫经验;熟悉正则、xpath等提取方法; 5、熟悉常见的反爬虫技术如文本混淆、验证码、加密破解,api限制等;精通网页抓取原理及技术,熟悉MySQL、Redis、Postgrep等;熟悉Internet基本协议 (如TCP/IP、HTTP等) ; 6、熟悉Linux环境,使用脚本开发维护Linux服务器; 7、具有良好的表达能力,团队合作能力;具有很强的责任心,乐于挑战,有较强的深入学习理解业务的意愿;
热门职位