别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报

1. 学 Python 的书籍,推荐一本

在这里插入图片描述

入门阶段一般推荐《Python从入门到实践》+《Python完全学习手册》即可,如果还有疑问,可以加入 Python 事业部(78技术人社群) 参与攻读计划。

?78 技术人社群的 共读计划 ? 说明文档

2. 从读懂代码,到自由去爬,中间隔着一层“熟练度”。

在这里插入图片描述

程序员的能力中有一项非常重要,它叫做逻辑能力,这个能力一般会衍生为我们一直说的项目经验,一个成熟的程序员在实战中摔打出来的经验是很重要的,这也是为什么只学习语法无法彻底掌握编程的原因。

为了练习实战经验,Python事业部(78技术人社区)设计了一个《企业项目实战》打卡任务,可以重度参与进来。

《C榜追踪器》第8天,搭建 django 框架,调用 sqlite 文件

3. 老生常谈,Python爬虫到底违不违法

在这里插入图片描述
下述内容不要爬:

  1. 付费资源不要爬
  2. 个人隐私不要爬
  3. 逆向,解密不要干
  4. 姓名,手机,身份证通通不要爬

4. 异常:AttributeError:module ‘execjs’ has no attribute ‘compline’

群友出现如下异常。

在这里插入图片描述

execjs 是一个执行JavaScript代码的库,该库出现这个问题,可以查看一下是否在前文出现了 execjs 变量,并将其指向了其它内容。

5. Python中哪个函数能直接显示某一个日期是那一年中的第几天?

在这里插入图片描述

具体代码如下所示:

import time

localtime = time.localtime(time.time())
print(localtime)
print(localtime.tm_year)
print(localtime.tm_mon)
print(localtime.tm_mday)
print(localtime.tm_yday)

6. 一个类的属性继承另一个类的属性,这种写法叫什么?

在这里插入图片描述

7. scrapy框架相关问题

scrapy框架在第一个中间件的 process_request 中添加请求头后,为什么是返回 None?而不是返回添加请求头的新 request
接着传给下一个中间件的不就是没有请求头的 request 吗?这个新的怎么传给下载器? 在这里插入图片描述
这个问题可以在《Python爬虫120例》的 纯纯的爬虫知识,python scrapy 下载中间件知多少,找到答案。

8. 爬虫学到啥程度算出师

在这里插入图片描述
爬虫出师:

  1. 学会Python基础语法
  2. 掌握 requests、bs4、lxml、pyquery 等基础框架
  3. 掌握 Scrapy 类大型框架
  4. 掌握多线程,多进程,并发等技术
  5. 掌握集群,分布式等技术
  6. 常见的反爬手段要清楚

9. 跑个数据,要爬取100页的数据,突然报错,然后再行就一个都下载不下来,这个是被封IP的现象吗?

在这里插入图片描述

不是,如群友所说,大概率是数据异常值问题。

10. 爬虫120例的第3例猫咪图,增加了反爬

在这里插入图片描述

11. 爬虫100例,正在复盘更新中,已经更新了50+案例啦。

有群友询问《爬虫100例》其中的案例过期问题,这个已经在更新中啦,具体参见图片后内容。
在这里插入图片描述
复盘系列文章:

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
)">
< <上一篇
下一篇>>