首页 > 代码库 > python 爬虫必知必会

python 爬虫必知必会

 

#python爬虫
#新闻数据
#机器学习:股票数据获取及分析
#网络搜索引擎的一个部件

#Http协议
#正则表达式
#多线程,分布式
#http报文展示

#Http 应答报文介绍
#1.应答码
    #2xx:成功200:ok,206    
    #3xx: 重定向
    #4xx: 客户端错误 400 Bad Request,404 Not Found
    #5xx: 服务端错误 500 Internal Server Error, 501 Not Implemented    
#2.Server:应答服务器
#3.Content-Type:应答的数据类型 test,image,audio,video
#4.Last_Modefied:上一次修改时间
#5.Content-Encoding:应答编码类型
#6.Content-Length:应答的内容长度

#URL组成部分
#参数规则
    #参数以问号作为开始
    #参数对是key=value样式
    #参数对之间使用&号连接
    
#cookies基础
    #客户端发送Cookie时:Cookie:key1=value;key2=value2;key3=value3
    #服务器保存Cookie时:Set-Cookie:key1=value;key2=value2;key3=value3
#cookies属性
    #Domain and Path:定义cookie的作用域。
    #Expires:定义cookie的生命周期
    #HttpOnly:禁用脚本访问
#cookies用途
    #登录信息
    #是否记住密码
#cookies可能引起什么样的安全问题

 

python 爬虫必知必会