前言
基础:首先是Python
基础,找个看得过去的文字啊或者视频看一下基础就可以了,知道怎么用就好了其实,比如推荐廖雪峰的python教程(是文字的),如果看视频的,哔哩哔哩大学
上面就有很多Python
的教程,。
爬虫:就是几个库的运用,前期刚开始学,不用考虑啥反爬虫啊,过验证啊,JS加解密哪些问题,先把库用熟就好了。自学能力强的可以直接看着文档上手操作。通常用到的几个库就是requests
,BeautifulSoup
,re
,selenium
,scrapy
前期用到的基本上就是requests
库配合BeautifulSoup
和re
。
requests
:首先可以通过查询requests
中文文档学习,如果文档看着有点困难,或者想上手操作函数的,可以安装jupyter notebook
进行试手,启动后是这样的,可以在这个页面,对requests
的各种操作进行一次练手。
BeautifulSoup
:然后就是这个中文美丽汤的库,也是可以通过查询BeautifulSoup
中文文档学习,接着通过jupyter notebook
进行试手。
re
:这个库就是用来做正则匹配的,可以通过搜索引擎百度等搜索他的相关教程,可以了解清楚这个模块怎么使用。在线正则匹配语法
后面两个库,在更加深入后,可以慢慢深入了解。建议刚入门学习的,先把这三个库用熟,一步一步来。
安装jupyter notebook
安装好Python后,直接就可以进行安装
pip install Jupyter
百度上有很多相关的文章,可以参考。
安装完成后,由于上面两个图片中的例子都是一个源码来的,所以你要使用他,就得放到相对应的目录。这个时候就得先知道系统里jupyter notebook
的存储路径
第一步:找到配置文件
打开
cmd
输入命令 jupyter notebook —generate-config
根据上面运行处的路径打开
C:\Users\用户名\.jupyter\jupyter_notebook_config.py
文件
第二步:更改配置
找到 #c.NotebookApp.notebook_dir = ‘’,去掉该行前面的“#”;在打算存放文件的位置先新建一个文件夹(很重要,最好是英文的),然后将新的路径设置在单引号中,保存配置文件
在开始菜单找到
Jupyte Notebook
快捷键,鼠标右击 — 更多 — 打开文件位置找到对应的
Jupyte Notebook
快捷图标,鼠标右击 — 属性 — 目标,去掉后面的"%USERPROFILE%/"
(很重要),然后点击“应用”,“确定”把下载下来的
.ipynb
文件放到设置好的路径处启动
jupyter notebook
视频
如果看文字看不下去,想看视频类库的教学,可以下载这个教程.
教程和源码关注公众号获取。