这段时间,学习Shell脚本,将wget下载的网页用html2txt转化成普通的文本,发现对于各大网站的首页并不适合用html2txt转换。里面的一些动态的新闻什么的,用wget并不能下载下来。此外,使用wget时,当url含有&等特殊字符时,要用'\'进行转换
下面说下html2text的使用说明
代码:
This is html2text, version 1.3.2a
Usage:
html2text -help
html2text -version
html2text [ -unparse | -check ] [ -debug-scanner ] [ -debug-parser ] \
[ -rcfile ] [ -style ( compact | pretty ) ] [ -width ] \
[ -o ] [ -nobs ] [ -ascii ] [ ] ...
Formats HTML document(s) read from or STDIN and generates ASCII
text.
-help Print this text and exit
显示本页文本并退出
-version Print program version and copyright notice
-unparse Generate HTML instead of ASCII output
-check Do syntax checking only
做语法检查
-debug-scanner Report parsed tokens on STDERR (debugging)
-debug-parser Report parser activity on STDERR (debugging)
-rcfile Read instead of "$HOME/.html2textrc"
-style compact Create a "compact" output format (default)
-style pretty Insert some vertical space for nicer output
-width Optimize for screen widths other than 79
-o Redirect output into
将输入重新输出至 <file>
-nobs Do not use backspaces for boldface and underlining
这个选项要用着。不然的话转换后的文件 里会有很多没用的符号
-ascii Use plain ASCII for output instead of ISO-8859-1
阅读(820) | 评论(0) | 转发(0) |