每天学习一点点,每天进步一点点.
login

python 爬虫scrapy框架

2018-09-15 14:12:15  |  分类: Python |  标签: 无 阅读(2764)    评论(0)

框架使用说明:https://www.jianshu.com/p/2f3fbf770a5b
gcc错误

c++错误

安装twisted

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

cp后面是python的版本

安装64位或32位

pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win32.whl

pip install scrapy

scrapy version

如果报语法错误(py3.7)

错误提示里面找到manhole.py 打开,替换所有async为async_mooc继续执行

ModuleNotFoundError: No module named ‘win32api’

pip install -i https://pypi.douban.com/simple pypiwin32

如果提示找不到爬虫模块,顶部增加

from quotes.items import QuotesItem

//创建项目目录

scrapy startproject quotes

//进入项目目录

cd quotes

//生成项目

scrapy genspider 名字 爬取网址

scrapy genspider quote quotes.toscrape.com

在项目目录执行 运行爬虫

scrapy crawl quote

scrapy crawl quote -o quotes.json

爬取并储存为json文件

选择器

scrapy shell http://quotes.toscrape.com/

fetch:使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。

scrapy fetch —nolog —headers http://www.example.com/

view在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。

scrapy view http://www.example.com/some/page.html

留言区域