失效链接处理 |
python网络爬虫 PDF 下载
相关截图:
主要内容: 4、URL的理解和举例 URL是URI的一个子集。它是 Uniform Resource Locator的缩写,译为“统一资源定位符”。 通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种wwW客户程序和服务器程序上。 采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。 URL的格式由三部分组成: ①第一部分是协议(或称为服务方式)。 ②第二部分是存有该资源的主机IP地址(有时也包括端口号).③第三部分是主机资源的具体地址,如目录和文件名等。第一部分和第二部分用“://”符号隔开, 第二部分和第三部分用“I”符号隔开。 第一部分和第二部分是不可缺少的,第三部分有时可以省略。 下面来看看两个URL的小例子。 1.HTTP协议的URL示例: 使用超级文本传输协议HTTP,提供超级文本信息服务的资源。例: http://www.peopledaily.com.cn/channel/welcome.htm其计算机域名为www.peopledaily.com.cn。 超级文本文件(文件类型为.html)是在目录/channel 下的welcome.htm。 这是中国人民日报的一台计算机。 例:http://www.rol.cn.net/talk/talk1.htm其计算机域名为www.rol.cn.net。 超级文本文件(文件类型为.html)是在目录/talk下的 talk1.htm。这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。
|