实现文档在线预览的方式除了上篇文章《文档在线预览(一)通过将txt、word、pdf转成图片实现在线预览功能》说的将文档转成图片的实现方式外,还有转成pdf,前端通过pdf.js、pdfobject.js等插件来实现在线预览,以及本文将要说到的将文档转成html的方式来实现在线预览。代码基于 aspose-words(用于word转html),pdfbox(用于pdf转html),所以事先需要在项目里下面两个依赖:
2025年01月01日
实现文档在线预览的方式除了上篇文章《文档在线预览(一)通过将txt、word、pdf转成图片实现在线预览功能》说的将文档转成图片的实现方式外,还有转成pdf,前端通过pdf.js、pdfobject.js等插件来实现在线预览,以及本文将要说到的将文档转成html的方式来实现在线预览。代码基于 aspose-words(用于word转html),pdfbox(用于pdf转html),所以事先需要在项目里下面两个依赖:
2025年01月01日
整个过程用到了画布(canvas)来帮忙完成
过程: 选择图片文件 > 准备画布 > 按需压缩图片并绘制在画布上 > 生成Base64 > 完成.
先上效果图
2025年01月01日
项目链接地址:https://github.com/stonehank/html-to-md
一个用于转换HTML为Markdown的工具。
可以获取任意的网页内容转为 markdown 之后保存在自己的仓库
2025年01月01日
文件转换工具新增exel转html功能,可在线预览excel。
1.打开工具,选择excel文件
2.转换文件
单sheet模式
2025年01月01日
最近在工作中遇到一个bug,将word转换成html,转换成功之后在浏览器中打开其中图片不显示,使用img标签,src指定图片相对地址又是能显示的,排除图片问题。
打开转码之后的html代码发现,生成的是vml图片标签,这个在IE9以后就不支持了,更别说现在的主流浏览器了。
2025年01月01日
Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是Apache的Lucene项目下面的子项目,在lucene的应用中可以使用tika获取大批量文档中的内容来建立索引,非常方便,也很容易使用。Apache Tika toolkit可以自动检测各种文档(如word,ppt,xml,csv,ppt等)的类型并抽取文档的元数据和文本内容。Tika集成了现有的文档解析库,并提供统一的接口,使针对不同类型的文档进行解析变得更简单。Tika针对搜索引擎索引、内容分析、转化等非常有用。
2025年01月01日
苹果公司在 iOS 11 以后对相机加入新的 HEIF 和 HEVC 影像和影片格式,默认情况会使用「高效率」模式储存拍摄的照片和影片,减少相片影片占用的容量,不仅画质更好,容量只有 JPEG 一半,使用者可以储存多达一倍的照片影片。HEIF 是「高效率图档格式」(High Efficiency Image File Format)缩写,HEVC 则为「高效率视频编码」(High Efficiency Video Coding),而 HEIF 格式的扩展名为 .heic,或许大家都曾经碰过,特别是你也是 iPhone、iPad 使用者,一定对于这个格式不陌生。
2025年01月01日
为啥要做这个软件
2025年01月01日
如果你想把PDF文件中的文本和字体转换成HTML5格式,那么这里有几种方法可以帮你。下面有三种方式,先了解一下他们是之间的异同:
如果你想让文本是可选的,有两种方法可以实现它。第一种方法是把PDF字体转换为Web浏览器的兼容字体,并使用可用的字体得到HTML文本。虽然这是一个很平常的过程,PDF文件格式没有包含浏览器兼容的字体,有很多的注意事项会让精确地转换字体变为一个噩梦。这就是为什么很少看见PDF文件到HTML格式转换的工具能保留字体的原因。