首页 > 代码库 > python学习(十五) 屏幕抓取
python学习(十五) 屏幕抓取
15.1 屏幕抓取
15.1.1 Tidy和XHTML解析
Tidy:用来修复不规范且随意的HTML文档的工具。
为什么用XHTML: 和旧版本的HTML之间最主要的区别:HTML可能只用一个开始标签(<p>)结束一段然后开始下一段,而在XHTML中,首先要显示的关闭当前段落(</p>), 这种行为让XHTML更容易解析,
另外一个好处是:它是XML的一种,可以对他使用XML工具,例如xpath。
解析XTML用HTMLParser.
15.1.2 Beautiful Soup
是个小模块,用来解析和检查经常在网上看到的那类乱七八糟而且不规范的HTML。
15.2 使用CGI创建动态网页
15.2.1 第一步:准备网络服务器
15.2.2 第二步:加入Pound Bang行
15.2.3 第三步: 设置文件权限
15.2.4 CGI安全风险
15.2.5 简单的CGI脚本
15.2.6 使用CGITB调试
15.2.7 使用CGI模块
15.3 更近一步:mod_python
15.3.1 安装mod_python
15.3.2 CGI处理程序
15.3.3 PSP
15.3.4 发布
15.4 网络应用程序框架
15.5 Web服务:正确分析
15.5.1 RSS和相关内容
15.5.2 使用XML-RPC进行远程过程调用
15.5.3 SOAP
15.6 小结
python学习(十五) 屏幕抓取
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。