现在我们谈谈怎样把Word文档里的内容改写成HTML文件格式。接下来我们具体了解一下。
准备工作
使用类库,安装方法(使用pip进行安装),命令如下:
pip install python-docx
类编程客栈库介绍
docx文件处理工具能够用来建立和修改word文档。它具备多种对文档的功能。诸如开启文档、输入文字、设定文字格式、分析文档、获取文档信息等。这是一款专门为word设计的实用程序。
说代码
现在来谈谈代码相关的事宜,先有一个说明,主要是提及到代码工具在网络上被贩卖的情况,因此补充了相关说明。
1、通过os类库,获取当前目录下的所有文件信息
# 当前目录下的文件
file_path = os.getcwd()
print("当前位置:%s" % file_path)
运用函数来提取信息,接着检查文件夹里的文件,仅选取扩展名为.docx的文档
data = []
通过遍历指定目录,逐个访问其内部所有文件和子目录,按照自下而上的顺序进行操作
for name in files:
f_p是将root和name组合后的路径,其中反斜杠被替换成了正斜杠
文件类型通过os.path.splitext函数获取,参数为f_p
if file_type[1] == '.docx':
if " " in file_type[0]:
重命名文件,将原文件名中的空格全部删除,得到新文件名,并以此作为目标文件名进行操作
f_p = f_p.replace(" ", "")
data.append(f_p)
return data
此处为编程客栈,我们执行了判定动作,目的是避免文件名包含空白字符的情况,因为在测试环节发现,带有空白字符的文档名无法定位到对应文件。
3、判断数据情况
if not fjsile_array: print("此目录下无docx格式word文件") # 开始转换 print("开始转换") for v in file_array: main(v)
若当前文件夹内没有相应文件,程序便立刻终止运行,不再继续后续操作。
4、开始转换
这里我们使用的是在3中循环调用方法,下面看一下代码
html = PyDocX.to_html(v) fiwww.cppcns.comle_name = os.path.splitext(v) f是打开文件操作,文件名是file_name列表第一个元素组成的字符串,后缀是html,模式是写入,编码格式是utf-8 f.write(html) f.close()
转换过程十分简便,相关类库已提供现成功能,我们仅需执行相应操作即可。我选择维持原word文档的名称来创建html文档。这种方式有助于后续检索。
实际上,此处并非必须生成文件,可以直接将获取的数据信息存储进数据库,然后在网页上直接呈现出来。
扫一扫在手机端查看
- 上一篇:个人网页设计_班级网页制作HTML个人网页设计我的班级网站设计与实现大学生简单班级静态HTML网页设计作品DIV布局班级网页模板代码DW学生校园网站制作成品下载
- 下一篇:html调用python代码_html网页调用后端python代码的方法实例
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。


客服1