python 爬虫scrapy框架

c++错误

安装twisted

cp后面是python的版本

安装64位或32位

pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win32.whl

pip install scrapy

scrapy version

如果报语法错误(py3.7)

错误提示里面找到manhole.py 打开，替换所有async为async_mooc继续执行

ModuleNotFoundError: No module named ‘win32api’

如果提示找不到爬虫模块，顶部增加

from quotes.items import QuotesItem

//创建项目目录

scrapy startproject quotes

//进入项目目录

cd quotes

//生成项目

scrapy genspider 名字爬取网址

scrapy genspider quote quotes.toscrape.com

在项目目录执行运行爬虫

scrapy crawl quote

scrapy crawl quote -o quotes.json

爬取并储存为json文件

选择器

fetch：使用Scrapy下载器(downloader)下载给定的URL，并将获取到的内容送到标准输出。

scrapy fetch —nolog —headers http://www.example.com/

view在浏览器中打开给定的URL，并以Scrapy spider获取到的形式展现。