-
职责描述: 1、负责各主流网站公开数据的爬取(文本,图片,视频) 2、负责网站数据采集,分析数据来源,提高数据质量。 任职要求: 1、熟练掌握Python开发,有扎实的编程功底,熟悉常用的数据结构和算法。 2、熟悉爬虫框架,熟练掌握多线程、多进程开发; 3、能处理常见的主流网站反爬机制,并制定相应的反爬措施; 4、至少掌握一种数据库的操作,如MySQL,Mongdb等。 5、掌握验证码识别技术,有过相关爬虫项目经历,掌握APP数据爬虫者优先; 6、一年以上爬虫工作经验。
-
职位职责: 1、负责反爬取和风控基础平台的架构、设计与实现; 2、负责风控数据平台和模型系统架构的建设; 3、跟踪反爬、反作弊技术的最新进展并应用于实践。 职位要求: 1、具备优秀的逻辑思维能力,对解决挑战性问题充满热情,善于解决问题和分析问题; 2、精通至少一门编程语言,熟练运用各种常用算法和数据结构,有独立的实现能力 ; 3、熟悉在线系统开发,流式计算,规则引擎及模型系统者优先; 4、有互联网反爬取,反作弊,账户安全等系统相关经验者优先。
-
职位职责: 1、负责风控基础引擎和平台的架构、设计与实现,支持字节跳动旗下相关产品线风控需求; 2、负责高性能、高并发、低延迟的后台系统持续优化和演进; 3、洞察反爬虫、反作弊等风控技术的最新进展并应用于实践。 职位要求: 1、两年以上后端研发经历,计算机相关专业本科及以上学历; 2、精通 go/cpp/java/rust 等至少一门编程语言,熟练运用各种常用算法和数据结构,有独立实现能力; 3、具备优秀的逻辑思维能力,对解决挑战性问题充满热情,善于解决问题和分析问题; 4、熟悉在线系统开发,流式计算,规则引擎或模型系统者优先,有大流量系统开发经验者优先; 5、有互联网反爬取、反作弊、设备安全、账户安全等系统相关经验者优先。
-
岗位职责: 1、维护优化爬虫系统 2、满足公司数据的爬取需求; 3、参与爬虫项目的架构设计、研发、编程工作,改进和提升爬虫效率 岗位要求: 1、2年以上工作经验; 2、深入理解python的常用的爬虫框架; 3、熟悉正则表达式、xpath、css、html等网页相关基础知识,具有一定的web逆向能力; 4、熟悉MySQL、Redis数据库; 5、熟悉Flask接口编写 6、有参与研发爬虫中台经验优先。
-
非杭州伙伴可以线上办公!!! 岗位职责: 1、负责设计、开发、维护爬虫系统; 2、参与多平台信息的抓取和分析; 3、建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 4、设计爬虫反屏蔽规则,提升网页抓取的效率和质量; 5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。 任职资格: 1、熟悉GO或者RUST语言,熟练掌握js反混淆,有实操经验优先; 2、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先; 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、熟悉 web/app 常见的反爬机制,精通各种反爬破解,包括但不限于:Js防护、混淆、逆向分析、App防破解、防逆向、加固技术等技能; 5、有电商类网站爬虫经验优先,有高频爬虫工作经验者优先。
-
岗位职责: 1. 负责爬虫核心技术的设计和开发; 2. 设计爬取、调度和抽取算法,优化系统; 3. 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量; 4. 对指定网站、移动端App进行数据抓取工作; 5. 及时解决爬虫抓取过程中出现的问题并不断维护、优化程序。 任职要求: 1. 本科及以上学历,计算机相关专业; 2. 5年以上爬虫开发经验;熟悉MySQL数据库,能协助检查数据入库环节;有多线程开发经验;会处理电商或其他网站反爬问题者优先; 3. 熟悉整个爬虫的设计及实现流程,精通网页抓取原理及技术,精通正则表达式、HTML,JS,AJAX等网页信息抽取技术,从结构化的和非结构化的数据中获取信息; 4. 有海量数据爬取经验者优先,有大数据量、大并发项目经验者优先,有互联网、电商平台、移动端数据爬取技术经验者优先; 5. 有良好的代码编写习惯、沟通、协作能力,有责任心。
-
总目标:制作一个用于电脑使用的小型搜索器软件或者浏览器插件、拓展程序,实现能够完成上述初步查询20000个生物品种的查询、筛选、整理工作。 搜索器的主要要求: 1、 总目标是可以实现按照关键词以及特殊字符(比如图片或是化学结构式)在谷歌进行自动搜索,每次搜索结果的前200条链接的网址内容进行全部爬取,包括网页链接页面的分页和外部链接的全部内容。(很多是外网网址,公司地址在国内,自己有VPN,没有服务器)。一个关键词搜索到的内容可以自动保存在一个word或文件夹,而且要做到去重。 2、 搜索的关键字字符可能有几十种包括中英文以及其他小语种的特殊字符,搜索的网页内容语言主要是中英文,还会有少量西班牙语,葡萄牙语,法语,日语等等。 3、 当搜索出来的不是网页,比如说是PDF或其他文件格式要保存到同一文件夹里,尽量保证可以把爬取页面上附带的WORD和PDF文件也爬取下来,如果涉及到某些论文无法爬取,则需要把论文摘要内容爬取下来。当有些网址实在是不能爬取的时候可以截图保存到文件里。 4、 搜索到网站后,能初步分析和判断,按关键字将内容进行归类;(按精确匹配或模糊匹配分),需要搜索某种产品的物化性质、结构式、应用、生产经营企业信息等,就要进行分析,进入下一层(有可能再进入下一层),把相关的所有信息全部保存下来。 5、 可以按照我方要求,主动设置文件夹、word文件格式,并整理文件资料、存储独立文件,如照片、PDF文件和其它独立格式文件,保存的word文件需要自行筛选掉重复信息。 6、 一周内可以达成6000个生物品种的查询筛选整理工作。 7、 从网站下载的信息需要是以word文件的格式下载保存,主要保存网站页面的文字信息,保存的内容要附上具体的网址,不同板块的信息内容需要添加空格隔开。将具体网址设置为小标题方便我们快速找到每个网址的内容。 8、 文字部分最终的目的是把不同网站的内容关于某一个品种的内容进行总结自动去重后,把各个网站关于这个品种的内容收集到一个word文件里总结,并且筛选出其中不同的信息。 9、 比较理想的情况是可以做一个独立的软件,但是如果比较难实现可以做成浏览器的插件或者拓展,只要能达到前面提到的收集资料的要求即可。 10、 文字搜索部分的工作工期工期为签约后的一周,签约后付定金,交付后的调试时间为3天,程序运行验收没问题付清尾款。
-
【工作职责】 1.独立完成软件系统代码的设计与实现; 2.根据需求完成设计、代码编写、调试、测试和维护; 3.使用Python语言对后台业务逻辑进行开发以及维护; 4.能根据实际需求,使用前沿第三方框架,如Django、Flask等实现各种功能。 【职位要求】 1.***本科及以上学历,软件工程、计算机相关专业,一年以上相关工作经验优先;有真实的 Python 项目经历优先; 2.能够在Unix/Linux进行服务器的开发; 3. 精通Python语言; 4.熟悉PEP8编程规范; 5.精通MySQL/PostgreSQL/MongoDB; 6. 具有良好的沟通能力、团队合作精神、优秀的分析问题和解决问题的能力。 优先条件:. 熟悉网页爬取、数据挖掘、数学建模和算法,熟悉Scrapy等相应的开源组件;有良好的设计能力,熟悉常用的设计模式和设计原则。 工作地点:深圳 工作时间:08:30-18:00 午休12:00-13:30 其他说明:食宿自理 【面试信息】 面试形式: 到场面试 面试轮数: 1-3轮 时间安排: 一天内完成 补充说明:包含笔试、上机操作 【福利待遇】 1. 入职即可购买五险一金,无论你是深户还是非深户,统统缴纳深圳一档社保; 2. 入职一个月以后报销体检费用; 3. 休假:享有11天国家法定有薪假期(元旦、春节、清明节、端午节、劳动节、中秋节、国庆节); 4. 节日福利:元旦、圣诞节、元宵节、三八妇女节、端午节、中秋节等发放水果/节日礼品/下午茶; 5. 特殊假期(比如婚假、生育假等有相应的慰问金); 6. 员工团建:定期组织员工活动,丰富员工**生活; 7. 一对一导师制,老带新,帮助你尽快融入公司; 8. 评优:对季度绩效优秀的员工给予额外的现金奖励; 9. 晋升:工作认真负责、能力突出者,公司主动评估给予晋升; 10. 年终奖,年度调薪。
-
【工作职责】 1.独立完成软件系统代码的设计与实现; 2.根据需求完成设计、代码编写、调试、测试和维护; 3.使用Python语言对后台业务逻辑进行开发以及维护; 4.能根据实际需求,使用前沿第三方框架,如Django、Flask等实现各种功能。 【职位要求】 1.本科及以上学历,软件工程、计算机相关专业,英语四级及以上,一年以上相关工作经验优先;有真实的 Python 项目经历优先; 2.能够在Unix/Linux进行服务器的开发; 3. 精通Python语言; 4.熟悉PEP8编程规范; 5.精通MySQL/PostgreSQL/MongoDB; 6. 具有良好的沟通能力、团队合作精神、优秀的分析问题和解决问题的能力。 优先条件: 熟悉网页爬取、数据挖掘、数学建模和算法,熟悉Scrapy等相应的开源组件;有良好的设计能力,熟悉常用的设计模式和设计原则。 工作地点:深圳 工作时间:08:30-18:00 午休12:00-13:30 其他说明:食宿自理 【面试信息】 面试形式: 到场面试 面试轮数: 1-3轮 时间安排: 一天内完成 补充说明:包含笔试、上机操作(无需带电脑) 【福利待遇】 1. 入职即可购买五险一金,无论你是深户还是非深户,统统缴纳深圳一档社保; 2. 入职一个月以后报销体检费用; 3. 休假:享有13天国家法定有薪假期(元旦、春节、清明节、端午节、劳动节、中秋节、国庆节); 4. 节日福利:元旦、圣诞节、元宵节、三八妇女节、端午节、中秋节等发放水果/节日礼品/下午茶; 5. 特殊假期(比如婚假、生育假等有相应的慰问金); 6. 员工团建:定期组织员工活动,丰富员工**生活; 7. 一对一导师制,老带新,帮助你尽快融入公司; 8. 评优:对季度绩效优秀的员工给予额外的现金奖励; 9. 晋升:工作认真负责、能力突出者,公司主动评估给予晋升; 10. 年终奖,年度调薪。
-
目前招聘画像: 1.资深数据爬取经验 2.数据清洗,数据处理(体量在1 T以上) 3.有算法背景,数据挖掘经验 数据处理 了解NLP算法 岗位职责: 1. 负责研究院数据采集工作,包括文本、图片、视频等多种类型数据,持续更新和扩大数据集规模; 2. 根据项目需求,快速进行数据抓取代码和清洗代码开发; 3. 协助研究团队对数据进行清洗、过滤、存储等处理工作; 4. 对数据平台存储的海量数据进行管理和维护。 岗位要求: 1. 985 211优先考虑,计算机相关专业,熟悉计算机基础知识,具有3年及以上爬虫与反爬工作经验; 2. 熟悉linux平台开发,精通Python,熟悉各种爬虫框架和工具,掌握验证码识别技术、js逆向等常用反爬技能; 3. 熟悉大数据处理的流程以及熟练使用相关的工具,具备使用、维护、调优的能力,包括但不限于Hadoop、Spark、Kafka、ELK、Flink、ClickHouse、kettle等; 4. 熟悉Socket网络编程,多线程/进程/异步code的开发,掌握TCP/IP,UDP及常见变种网络通信协议,熟练使用工具对网络协议进行报文分析和调试,熟练使用正则表达式,xpath等匹配方法,能够快速从原始数据中提取有用信息; 5. 良好的沟通能力,抗压能力强,能独立解决开发过程遇到的各类问题; 6. 有大规模项目爬取工作经验优先,有大数据处理工作经验优先。
-
岗位如下: 职位名称:高级爬虫工程师 公司:江涞互联 职位描述: 我们正在寻找一位经验丰富的高级爬虫工程师,负责开发和维护公司的爬虫程序,以及处理爬取到的数据。 工作职责: - 设计和开发爬虫程序,包括爬取网站数据、提取数据和清理数据等。 - 熟悉常用的爬虫框架,如Python中的Scrapy和BeautifulSoup等。 - 了解数据清洗和转换的技能,如pandas和NumPy等。 - 熟悉常用的数据库,如MySQL和Oracle等。 - 具有出色的代码能力,熟悉Git版本控制工具。 - 具备良好的沟通能力和团队合作精神,能够与其他团队成员合作完成任务。 职位要求: - 3年以上爬虫开发经验,有独立的爬虫项目开发经验。 - 熟悉常用的爬虫框架和数据清洗技能。 - 熟悉数据库和SQL语言,能够清洗和转换数据。 - 熟悉常用的开发工具和技术,如Python、JavaScript、HTML/CSS等。 - 具备良好的代码风格和规范,熟悉团队协作流程。 - 有良好的沟通能力和团队合作精神,能够与其他团队成员合作完成任务。 请注意,这只是一个示例职位描述,可能并不适用于所有公司。如果有任何疑问,请随时与我们联系。
-
工作职责: 1.负责规划、设计和开发爬虫相关系统,进行多平台多终端信息的抓取和分析。 2.基于抓取系统的数据抓取、清洗等设计开发。 3.配合业务线,完成实时数据与离线数据的爬取与对接。 任职要求: 1.精通Python语言\MYSQL,熟练使用常用模块,使用过Flask web框架; 2.能够解决封账号、封IP采集等问题,解决网页抓取、信息抽取等问题 3.熟悉爬虫工作原理,深入了HTTP协议内容 4.至少了解一种主流爬虫框架的架构及原理,有具体工程经验,如 scrapy / pyspider等 5.了解基于Cookie的登录原理,熟悉常用的信息抽取技术,如正则表达式、XPath等 6.对常见各类反爬方式(如账号/IP封禁、验证码、js混淆加密、滑块验证、数据混淆等)有一定解决经验
-
非杭州伙伴可以线上办公!!! 岗位职责: 1、负责设计、开发、维护爬虫系统; 2、参与多平台信息的抓取和分析; 3、建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 4、设计爬虫反屏蔽规则,提升网页抓取的效率和质量; 5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。 任职资格: 1、熟悉GO或者RUST语言,熟练掌握js反混淆,有实操经验优先; 2、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先; 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、熟悉 web/app 常见的反爬机制,精通各种反爬破解,包括但不限于:Js防护、混淆、逆向分析、App防破解、防逆向、加固技术等技能; 5、有电商类网站爬虫经验优先,有高频爬虫工作经验者优先。
-
岗位职责 1、负责设计和开发分布式的网络爬虫,数据的采集与爬取、调度、监控、自动化运行等; 2、负责反爬虫策略研究,代理IP、验证码识别等采集支撑服务建设; 3、负责Android、iOS 应用的逆向工作; 4、负责网页/APP 的数据抓取和爬取链路优化(包括 Android APP 反编译、脱壳、加密参数破解、抓取攻防等),提升抓取能力; 5、负责手机群控采集数据; 5、破解主流网站和app的反爬机制。 任职要求 1、熟练掌握Python,javascript,熟悉numpy,pandas和skiearn的使用,并有实际开发经验; 2、具备大规模通用爬虫开发经验,熟悉目前主流的一些爬虫框架; 3、熟悉HTTP、TCP等网络协议及数据抓包、分析; 4、熟练掌握至少一种数据库,有 MongoDB 或MySQL开发和维护经验者优先; 5、熟悉hive,Hadoop,spark,Hook,能独立解决实际开发过程碰到的各类问题; 6、加分项:精通软件逆向工程,精通软件加密解密知识,精通各种软件逆向工程开发工具的使用; 熟悉软件逆向分析流程,能够独立完成软件逆向工作;有成功逆向过的经历。
-
【我们需要您】 We Need U 1、负责广告产品后台服务的设计、开发、优化等研发工作,保证产品的质量和开发进度; 2、负责其他相关技术的设计与实现。 3、研究新兴技术,对产品进行持续优化。 【我们希望您】We Want U 1.三年及以上后端/算法工程/系统工程相关开发经验; 2. 开发语⾔以Python为主,熟练掌握至少其中一门语言(Python/Golang/C/C++); 3.有大型网站数据爬取经验优先,熟悉K8s/Docker技术优先; 4.熟悉Pytorch深度学习框架优先; 5.有大规模分布式服务器架构经验优先。 6.有跨境电商ERP平台广告经验。 7. 分析总结采集到的数据,对数据进行有效分类、汇总和提炼,制定相关数据分析报告; 【我们提供给您】We Offer U 薪资待遇:提供市场具有竞争力的薪资待遇 薪资结构:基本工资+绩效奖金+提成 基础保障: 1、工作时间:大小周 上午9:30-12:00 下午13:30-18:30(小周推迟及提前半小时上下班),法定节假日正常休息; 2、全勤奖,入职即享受买五险一金; 3、除法定节假日之外,还有福利假、年假、带薪病假等。 升级福利: 1、各类传统节日有精美礼品福利; 2、定期举办员工生日party/下午茶活动; 3、超19:30下班享生活补贴; 4、不定期团建活动、下午茶,劳逸结合; 5、年度调薪。