-
python 爬虫scrapy框架
2018-09-15 14:12:15 | 分类: Python | 标签: 无 阅读(2764) 评论(0)
框架使用说明:https://www.jianshu.com/p/2f3fbf770a5b
gcc错误
c++错误
安装twisted
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
cp后面是python的版本
安装64位或32位
pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win_amd64.whl
pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win32.whl
pip install scrapy
scrapy version
如果报语法错误(py3.7)
错误提示里面找到manhole.py 打开,替换所有async为async_mooc继续执行
ModuleNotFoundError: No module named ‘win32api’
pip install -i https://pypi.douban.com/simple pypiwin32
如果提示找不到爬虫模块,顶部增加
from quotes.items import QuotesItem
//创建项目目录
scrapy startproject quotes
//进入项目目录
cd quotes
//生成项目
scrapy genspider 名字 爬取网址
scrapy genspider quote quotes.toscrape.com
在项目目录执行 运行爬虫
scrapy crawl quote
scrapy crawl quote -o quotes.json
爬取并储存为json文件
选择器
scrapy shell http://quotes.toscrape.com/
fetch:使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
scrapy fetch —nolog —headers http://www.example.com/
view在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。
scrapy view http://www.example.com/some/page.html