如何在C#中将HTML转换为文本?

我正在寻找C#代码将HTML文档转换为纯文本。

我不是寻找简单的标签剥离,但是将输出纯文本与合理保留原始布局的东西。

输出应如下所示:

Html2Txt at W3C

我看过HTML Agility Pack,但我不认为这是我需要的。有人有任何其他建议吗?

编辑:我只是从CodePlex下载HTML Agility Pack,并运行Html2Txt项目。什么失望(至少html文本转换的模块)!它所做的就是剥离标签,展平表等。输出没有看起来像Html2Txt @ W3C生产的。太糟糕了,源似乎不可用。
我想看看是否有更多的“罐头”解决方案。

编辑2:感谢大家的建议。 FlySwat倾向于我想去的方向。我可以使用System.Diagnostics.Process类运行lynx.exe与“-dump”开关发送文本到标准输出,捕获stdout与ProcessStartInfo.UseShellExecute = false和ProcessStartInfo.RedirectStandardOutput = true。我会把所有这一切在一个C#类。这个代码将只被偶尔调用,所以我不太关心产生一个新的过程,而不是在代码中。另外,Lynx是FAST!

你正在寻找的是一个文本模式DOM渲染器,输出文本,很像Lynx或其他文本浏览器…这是比你想象的要困难得多。
http://stackoverflow.com/questions/731649/how-can-i-convert-html-to-text-in-c

本站文章除注明转载外,均为本站原创或编译
转载请明显位置注明出处:如何在C#中将HTML转换为文本?