转自 http://blog.chinaunix.net/uid-16946891-id-5088144.html
2024年11月05日
转自 http://blog.chinaunix.net/uid-16946891-id-5088144.html
2024年11月05日
今天扣丁学堂给大家介绍一下关于用Python处理HTML转义字符的5种方式,首先大多数Python初学者觉得写爬虫是一个发送请求,提取数据,清洗数据,存储数据的过程。在这个过程中,不同的数据源返回的数据格式各不相同,有 JSON 格式,有 XML 文档,不过大部分还是HTML 文档,HTML 经常会混杂有转移字符,这些字符我们需要把它转义成真正的字符。
什么是转义字符
在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不能在 HTML 代码中直接使用,如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape Sequence),例如 < 的转义字符是 <,浏览器渲染 HTML 页面时,会自动把转移字符串换成真实字符。