http url 的path究竟可以包含哪些字符？

您所在的位置：网站首页 › url可以包含哪些字符 › http url 的path究竟可以包含哪些字符？

http url 的path究竟可以包含哪些字符？

2024-06-02 06:32| 来源: 网络整理| 查看: 265

你觉得下面这些看起来像url的东西是啥？

http://my.oschina.net/@&/;:=***/new-blog http://my.oschina.net/*+/-9!/new-blog http://my.oschina.net/*+/-9!/+-_)( 其实它们也是url，而且但从语义和语法来讲，它们都是正确的url，但是osc肯定没有这些url所对应的资源（我试过了^_^）。

因为开发mvc时，我要解析url中 path 部分，就要知道path中能包含什么字符，所以就研究rfc中关于url的path部分的定义。

一个典型的http url 大概是长这样的（只讨论你手动在浏览器中输入url的情况）：

http://bornmoney.com/money/rmb?quantity=1000000 它的结构分析如下：

part data 协议 http 协议和主机名的分隔符 :// 主机 bornmoney.com 查询路径 /money/rmb 路径与查询参数的分隔符 ? 查询参数 quantity=1000000 本文讨论内容局限在“查询路径”部分，探讨查询路径中每个path segment（上表中的money or rmb）最终所能包含的字符。

开始在网上找了好久都找到满意的答案，全部都是说url中哪些字符需要转码，而哪些字符不需要转码的。至于最终哪些字符会出现在path segment上，并没有直接说明。最终只能自己动手了——查rfc文件。

rfc1738文件的17~18页中有关于http url的语法和文法定义。我后来把与path segment相关的部分摘抄如下：

httpurl = "http://" hostport [ "/" hpath [ "?" search ]] hpath = hsegment *[ "/" hsegment ] hsegment = *[ uchar | ";" | ":" | "@" | "&" | "=" ] uchar = unreserved | escape unreserved = alpha | digit | safe | extra alpha = lowalpha | hialpha lowalpha = "a" | "b" | "c" | "d" | "e" | "f" | "g" | "h" | "i" | "j" | "k" | "l" | "m" | "n" | "o" | "p" | "q" | "r" | "s" | "t" | "u" | "v" | "w" | "x" | "y" | "z" hialpha = "A" | "B" | "C" | "D" | "E" | "F" | "G" | "H" | "I" | "J" | "K" | "L" | "M" | "N" | "O" | "P" | "Q" | "R" | "S" | "T" | "U" | "V" | "W" | "X" | "Y" | "Z" digit = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" safe = "$" | "-" | "_" | "." | "+" extra = "!" | "*" | "'" | "(" | ")" | "," escape = "%" hex hex hex = digit | "A" | "B" | "C" | "D" | "E" | "F" | "a" | "b" | "c" | "d" | "e" | "f" 一开始我看不懂那个定义到底是怎么回事，后来才知道这是用 扩充巴科斯-瑙尔范式（ABNF）定义的，关于ABNF的规则较多，可以参考这里：http://zh.wikipedia.org/zh/扩充巴科斯范式

用ABNF范式去解读 rfc1738 对http url的定义，我们就知道定义规则右边出现的所有字符都可以出现在path segment中，这就能解释开头哪些奇怪的url居然是正确的了。

部分参考资料：

每个 Web 开发者都应该知道的关于 URL 编码的知识

关于URL编码

RFCEditor

其他的忘了

【本文地址】

http url 的path究竟可以包含哪些字符？

http url 的path究竟可以包含哪些字符？

今日新闻

推荐新闻