此项目用于爬取安居客网站二手房小区信息,支持指定城市、区域和页数。
├── anjuke_scraper/ # 主文件夹
│ ├── init.py
│ ├── main.py # 主要运行文件
│ ├── scraper.py # 主要爬虫代码
│ ├── utils.py # 工具函数
│ └── config.py # 配置文件,包含爬取城市、区域、页数、cookies、headers参数
│
├── tests/ # 测试文件夹
│ ├── test_scraper.py # 测试爬虫
│ └── test_utils.py # 测试工具函数
│
├── requirements.txt # 依赖库文件,列出项目需要的第三方库
├── README.md # 项目说明文件,描述如何使用、安装等
└── .gitignore # 忽略文件
-
下载
下载压缩包到本地,或克隆仓库
git clone https://github.com/Mariooo7/anjuke-scraper.git -
安装依赖
pip install -r requirements.txt -
使用
-
修改
config.py中的参数 -
运行爬虫
python -m anjuke_scraper.main
-
-
cookies参数注意改成自己的安居客网站会话cookies,否则无法爬取cookies 获取方法:F12 --> applications(应用程序) --> cookies
-
有时无法爬取是因为频繁操作需要进行真人验证,手动操作后再进行爬取即可