scrapy写爬虫注意事项

前段时间有个爬虫的需求，爬的什么网站的数据就不说了，简单介绍下在学习scrapy这中间踩的坑吧。

1、在爬取数据的时候，一定要想办法将爬虫伪装成一个浏览器，可以通过设置cookie和请求头的信息。这个具体的方法很多，随便百度一个关键词“scrapy设置请求头”，就可以出来一大堆答案。裸奔的话频率小点没啥事，但是访问频率比较高的话就会被302掉。甚至会被短时间内封掉ip，建议设置一个请求头比较保险。

2、使用scrapy时，要学会使用meta来传参。

3、要深入理解yield的用法。

4、item的使用尽量将需要的字段给他，不要给无关紧要的字段。

5、碰到异步请求的页面是，耐心找找异步请求的链接获取格式。一般来讲，请求
的链接都是固定的，只是某一个相关的参数不同。拼接请求就可以了。

6、碰到js渲染的页面时，需要使用phantomjs来加载js渲染后页面，phantomjs更像一个隐藏的浏览器，能获取到最全面的页面信息，使用时需要自己写一个js加载文件。网上很多。最便捷的就是通过标准输出将页面返回给主逻辑。