java将html转换为纯文本的代码详解编程语言

import java.io.*; 
import javax.swing.text.html.*; 
import javax.swing.text.html.parser.*; 
 
public class Html2Text extends HTMLEditorKit.ParserCallback { 
 StringBuffer s; 
 
 public Html2Text() {} 
 
 public void parse(Reader in) throws IOException { 
   s = new StringBuffer(); 
   ParserDelegator delegator = new ParserDelegator(); 
   // the third parameter is TRUE to ignore charset directive 
   delegator.parse(in, this, Boolean.TRUE); 
 } 
 
 public void handleText(char[] text, int pos) { 
   s.append(text); 
 } 
 
 public String getText() { 
   return s.toString(); 
 } 
 
 public static void main (String[] args) { 
   try { 
     // the HTML to convert 
     FileReader in = new FileReader("java-new.html"); 
     Html2Text parser = new Html2Text(); 
     parser.parse(in); 
     in.close(); 
     System.out.println(parser.getText()); 
   } 
   catch (Exception e) { 
     e.printStackTrace(); 
   } 
 } 
}

原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/tech/pnotes/10880.html

(0)
上一篇 2021年7月19日 10:31
下一篇 2021年7月19日 10:31

相关推荐

发表回复

登录后才能评论