您能否提供一些示例，说明为什么用正则表达式很难解析XML和HTML？[关闭]

Itachi十三Stafan2020-03-23

一个错误我看到人们做了，并再次试图解析XML或HTML用正则表达式。以下是难以解析XML和HTML的一些原因：

人们希望将文件视为一系列行，但这是有效的：

<tag
attr="5"
/>

人们希望将<或<tag视为标签的开头，但是类似的东西却普遍存在：

<img src="imgtag.gif" alt="<img>" />

人们通常希望将开始标签与结束标签匹配，但是XML和HTML允许标签包含它们自己（传统的正则表达式根本无法处理）：

<span id="outer"><span id="inner">foo</span></span>

人们通常希望将其与文档内容进行匹配（例如著名的“在给定页面上查找所有电话号码”问题），但是数据可能会被标记（即使在查看时看起来很正常）：

<span class="phonenum">(<span class="area code">703</span>)
<span class="prefix">348</span>-<span class="linenum">3020</span></span>

注释可能包含格式不正确或不完整的标签：

<a href="foo">foo</a>
<!-- FIXME:
    <a href="
-->
<a href="bar">bar</a>

您还知道其他哪些陷阱？

卡卡西理查德2020/03/23 10:22:03

我在这里对这个问题给出了简化的答案。虽然它不占100％的标记，但我解释了如果您愿意做一些预处理工作是怎么可能的。

Tony番长L2020/03/23 10:22:03

一般来说，由于XML语法绝非常规，因此无法使用正则表达式来解析XML。简而言之，正则表达式无法计数（嗯，Perl正则表达式实际上可以计数），因此您无法平衡开闭标记。

我不同意。如果要在正则表达式中使用递归，则可以轻松找到打开和关闭标签。

在这里，我展示了正则表达式的示例，以避免解析第一条消息中的示例错误。

老丝阿飞2020/03/23 10:22:03

我认为问题可以归结为：

正则表达式几乎总是错误的。存在合法输入，它将无法正确匹配。如果您足够努力，则可以使它达到99％正确或99.999％的正确性，但是几乎不可能使它达到100％的正确性，仅是因为XML使用实体允许的怪异事物。
如果正则表达式不正确（即使对于0.00001％的输入），则您会遇到安全问题，因为有人可以发现一个输入会破坏您的应用程序。
如果正则表达式足够正确，可以覆盖99.99％的情况，那么它将完全无法阅读和维护。
正则表达式很可能在中等大小的输入文件上表现很差。我与XML的第一次接触是用一个正确的XML解析器替换一个Perl脚本（不正确地）解析传入的XML文档，我们不仅用300行可读代码替换了300行任何人都可以理解的代码，而且还改善了用户响应时间从10秒到大约0.1秒。