Conversion from HTML to XHTML changes euro symbol, preventing correct XML parsing
我正在从 HTML 文件中提取信息,方法是使用 Java 中的 SAX 对其进行解析。解析程序给了我,它已经在使用 SAX,所以我想保持这种方式。
我要做的是:
- 我从网站获取 HTML 文件
-
使用 JTidy 库将其转换为有效的 XML。然而,这个库将所有 € 符号转换为"
您遇到的问题是编码问题。
管道中某处的某个工具正在破坏编码,然后该错误被继续执行,在您的输出中创建一个
â 。从外观上看,该网站使用 UTF-8(它也应该),但编码要么被错误声明,要么声明被忽略。
是否是您的工具链中的工具之一导致了此问题,或者是否是工具的滥用,尚不完全清楚。
使用 HTML 数字代替实际的欧元符号
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/tech/pnotes/269163.html