login每天学习一点点,每天进步一点点.
当前位置:首页 >> python 爬虫scrapy框架

python 爬虫scrapy框架

2018-09-15 14:12:15  |  分类: Python |  标签: 阅读(58)评论(0)

框架使用说明:https://www.jianshu.com/p/2f3fbf770a5b



gcc错误

c++错误


安装twisted

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

cp后面是python的版本


安装64位或32位

pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

pip install D:\Downloads\Twisted-18.7.0-cp37-cp37m-win32.whl


pip install scrapy

scrapy version


如果报语法错误(py3.7)

错误提示里面找到manhole.py  打开,替换所有async为async_mooc继续执行


ModuleNotFoundError: No module named 'win32api'

pip install -i https://pypi.douban.com/simple pypiwin32


如果提示找不到爬虫模块,顶部增加

from quotes.items import QuotesItem




//创建项目目录

scrapy startproject quotes

//进入项目目录

cd quotes

//生成项目

scrapy genspider 名字 爬取网址

scrapy genspider quote quotes.toscrape.com


在项目目录执行   运行爬虫

scrapy crawl quote  


scrapy crawl quote -o quotes.json

爬取并储存为json文件


选择器

scrapy shell http://quotes.toscrape.com/



fetch:使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。

scrapy fetch --nolog --headers http://www.example.com/


view在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。

scrapy view http://www.example.com/some/page.html


上一篇:ubuntu使用nmap查询端口 下一篇:ThinkPHP5 的视图$view->fetch()和$view->display()的区别

猜你喜欢

发表评论:

0.166986s