Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内-重庆市软件正版化服务平台

政策资讯

Policy Information

Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

来源：重庆市软件正版化服务中心 | 时间： 2022-09-20 | 浏览量： 87767 |

Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

输出结果

设计思路

核心代码

输出结果

4月有31天？what？本人编程出错，感谢纠正！

设计思路

核心代码


 -*- coding: utf-8 -*-
 
Py之Crawler：爬虫实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息并保存在csv文件内
 
import re
import csv
import requests
from tqdm import tqdm
from urllib.parse import urlencode
from requests.exceptions import RequestException
 
def get_one_page(city, keyword, page):  
   paras = {  
       'jl': city,         
       'kw': keyword,     
       'isadv': 0,         
       'isfilter': 1,     
       'p': page        
   }
   headers = { 
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
       'Host': 'sou.zhaopin.com',
       'Referer': 'https://www.zhaopin.com/',
       'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'zh-CN,zh;q=0.9'
   }
 
   url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)
   try:
       response = requests.get(url, headers=headers)
       if response.status_code == 200:
           return response.text
       return None
   except RequestException as e:
       return None
 
def parse_one_page(html): 
   pattern = re.compile('<a style=.*? >(.*?)</a>.*?'      
       '<td class="gsmc"><a href="(.*?)" >(.*?)</a>.*?'    
       '<td class="zwyx">(.*?)</td>', re.S)                                 
   items = re.findall(pattern, html)   
   print(items) 
   
   for item in items:  for循环的返回一个生成器
       job_name = item[0]
       job_name = job_name.replace('<b>', '')
       job_name = job_name.replace('</b>', '')
       yield {   yield是一个关键词，类似return, 不同之处在于，yield返回的是一个生成器
           'job': job_name,
           'website': item[1],
           'company': item[2],
           'salary': item[3]
       }
       print(item)
 
def write_csv_file(path, headers, rows):  
   with open(path, 'a', encoding='gb18030', newline='') as f:
       f_csv = csv.DictWriter(f, headers)
       f_csv.writeheader()
       f_csv.writerows(rows)
 
if __name__ == '__main__':
   main('上海', '机器学习', 10)

产品推荐

更多 >

WPS 365 一站式数字办公套件

WPS 365是金山办公推出的“数字办公全家桶”、一站式数字办公套件。既包含WPS Office套装、云盘、在线文档、轻维表、表单、脑图等内容创作工具，也包含企业IM、音视频会议等协作软件，助力企业高效协同办公。 2023年4月1日，金山办公宣布旗下全新产品WPS 365正式上线。通过统一工具、统一协作、统一管理的数字办公理念匹配业务发展，实现整个组织高效协作和安全管控。

1条评论

万里安全数据库V1.0

万里安全数据库GreatDB V1.0产品通过中国信息安全测评中心第一批“安可”测评，是“国货国用”、国资委79号文要求2027年全面完成国产替代的国产数据库厂商，也是入围国家信创目录中唯一采用 MySQL 技术路线的国产数据库厂商。

0条评论

中望CAD平台软件V2025 国产正版制图软件

中望软件是可信赖的All-in-One CAx解决方案提供商,科创板上市企业,掌握二三维CAD、CAM、CAE核心技术及产品开发能力,产品有中望CAD,中望3D,中望电磁,中望结构仿真.提供建筑设计软件与机械设计制图软件。

0条评论

金山终端安全系统V9.0杀毒软件（防病毒+漏洞+优化等）

金山终端安全系统V9.0是专门为政府、军工、能源、教育、医疗及集团化企业设计的终端安全管理平台。

0条评论