更新readme

This commit is contained in:
xunbu
2025-07-07 15:43:11 +08:00
parent c3e7e0540f
commit 196ce9a0b9

View File

@@ -39,8 +39,8 @@
# 支持的文件格式
| 输入格式 | 输出格式 |
|----------------|--------------|
| PDF(非扫描版) | Markdown推荐 |
|--------------|--------------|
| PDF | Markdown推荐 |
| Markdown | HTML |
| HTML、XHTML | PDF(仅交互界面支持) |
| CSV | |
@@ -70,7 +70,7 @@
可以在[github release](https://github.com/xunbu/docutranslate/releases)中下载docling_artifact压缩包将该压缩包解压放置在项目下可以解决模型下载的网络问题
### huggingface换源
### huggingface换源使用docling且尚未下载`docling_artifact`模型包)
> 不能科学上网的友友注意了
@@ -101,7 +101,7 @@ os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
由于需要使用大语言模型进行markdown调整与翻译所以需要预先获取模型的baseurl、key、model-id
常见的大模型平台baseurl与api获取方式可见[常用ai平台](#常用ai平台)
> 比较推荐的模型有智谱的glm-4-air、glm-4-flash免费阿里云的qwen-plus等。
> 推理模型需要支持api请求响应中区分`reasoning_content`和`content`详见平台开发手册ollama、lmstudio需开启对应选项
> 推理模型(不建议使用)需要支持api请求响应中区分`reasoning_content`和`content`详见平台开发手册ollama、lmstudio需开启对应选项
# 使用方式
@@ -140,13 +140,13 @@ translater = FileTranslater(base_url="<baseurl>", # 大模型的baseurl
# convert_engin="docling" # 使用docling解析文档
)
# 不开启公式、代码识别默认输出为markdown文件
# 不开启公式、代码识别
translater.translate_file("<文件路径>", to_lang="中文")
# 开启公式、代码识别(需要下载更多模型)
# 开启公式、代码识别
translater.translate_file("<文件路径>", to_lang="中文", formula=True, code=True)
# 在先修复文本再翻译适用于翻译pdf但更耗时耗费
# 使用ai先修复解析后的文本再翻译解析效果很差时才需要现不推荐使用
translater.translate_file("<文件路径>", to_lang="中文", refine=True)
```
@@ -168,6 +168,18 @@ translater.translate_file("<文件路径>", to_lang="中文", refine_agent=refin
translate_agent=translate_agent)
```
## 自定义翻译提示词
```python
from docutranslate import FileTranslater
from docutranslate.agents import MDTranslateAgent
translater = FileTranslater()
translate_agent = MDTranslateAgent(baseurl="<baseurl>", key="<key>", model_id="<model-id>",custom_prompt="Ordering Node全部翻译为排序节点")#这里必须指定baseurl\api-key\model_id
translater.translate_file("<文件路径>", to_lang="中文",translate_agent=translate_agent)
```
## 文件转换(pdf/markdown/HTML/Doc等->markdown/html)
```python
@@ -178,7 +190,7 @@ translater = FileTranslater(convert_engin="mineru", # 使用mineru解析文档
# convert_engin="docling" # 使用docling解析文档
)
# 文件转html
translater.read_file("<文件路径>").save_as_html() # 保存
translater.read_file("<文件路径>").save_as_html() # 保存(可通过output_dir参数指定保存目录)
translater.read_file("<文件路径>").export_to_html() # 输出字符串
# 文件转markdown
translater.read_file("<文件路径>").save_as_markdown() # 保存内嵌bas64图片的markdown