如何使用 Java 将 HTML 字符串转换为文本
网站副本被打包成 HTML 语法,因此它可以在我们的浏览器上正确显示(使用特定的格式规则)——这意味着在需要时仅访问该文本本身有点困难。然而,值得庆幸的是,以编程方式从 HTML 字符串中删除文本很容易。我们的 HTML to Text API 将快速从 HTML 语法中提取纯文本、无格式文本字符串并仅返回该文本(完全不影响原始 HTML 字符串),从而可以直接将该文本包含在数十个新位置,甚至对其进行分析使用 NLP 工具。
下面的演示将向您展示如何安装 API 客户端并使用可立即运行的 Java 代码示例构建您的 API 调用。最好的部分:您可以免费使用此 API;您需要做的就是在我们的网站上注册一个免费帐户 网站 并使用您的安全 API 密钥对调用进行身份验证(免费帐户每月产生 800 次 API 调用的限制,且额外承诺为零 – 非常适合小型项目)。
我们的第一步是安装 API 客户端。让我们添加对 pom.xml 存储库的引用:
<repositories>
<repository>
<id>jitpack.io</id>
<url>[ https://jitpack.io](https://jitpack.io) </url>
</repository>
</repositories>
之后我们可以添加对 pom.xml 依赖项的引用:
<dependencies>
<dependency>
<groupId>com.github.Cloudmersive</groupId>
<artifactId>Cloudmersive.APIClient.Java</artifactId>
<version>v4.25</version>
</dependency>
</dependencies>
现在我们可以转移到我们的控制器,将导入添加到我们文件的顶部:
// 导入类:
//import com.cloudmersive.client.invoker.ApiClient;
//import com.cloudmersive.client.invoker.ApiException;
//import com.cloudmersive.client.invoker.Configuration;
//import com.cloudmersive.client.invoker.auth.*;
//导入 com.cloudmersive.client.ConvertWebApi;
最后,我们可以调用该函数,通过以下代码传递我们的 API 密钥和输入字符串参数:
ApiClient defaultClient = Configuration.getDefaultApiClient(); // 配置API密钥授权:Apikey
ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");
Apikey.setApiKey("你的 API 密钥");
// 取消注释以下行以设置 API 密钥的前缀,例如“Token”(默认为 null)
//Apikey.setApiKeyPrefix("Token"); ConvertWebApi apiInstance = new ConvertWebApi();
HtmlToTextRequest 输入 = 新 HtmlToTextRequest(); // HtmlToTextRequest | HTML 转文本请求参数
尝试 {
HtmlToTextResponse 结果 = apiInstance.convertWebHtmlToTxt_0(input);
System.out.println(结果);
} 捕捉(ApiException e){
System.err.println("调用 ConvertWebApi#convertWebHtmlToTxt_0 时出现异常");
e.printStackTrace();
}
您可以将以下 JSON 结构用于我们的输入参数(访问我们的 API 控制台页面 对于 XML 等效项):
{
“HTML”:“字符串”
}
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/23130/53450913
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/288453.html