更新readme

2025-09-24 11:39:30 +08:00
parent c05f2dac58
commit cad7c47458
3 changed files with 298 additions and 344 deletions
--- a/README_ZH.md
+++ b/README_ZH.md
@@ -20,7 +20,7 @@
  一个基于大语言模型的轻量级本地文件翻译工具
 </p>

- ✅ **支持多种格式**：能翻译 `pdf`、`docx`、`xlsx`、`md`、`txt`、`json`、`epub`、`srt` 等多种文件。
+- ✅ **支持多种格式**：能翻译 `pdf`、`docx`、`xlsx`、`md`、`txt`、`json`、`epub`、`srt` 、`ass`等多种文件。
 - ✅ **自动生成术语表**：支持自动生成术语表实现术语的对齐。
 - ✅ **PDF表格、公式、代码识别**：凭借`docling`、`mineru`pdf解析引擎实现对学术论文中经常出现的表格、公式、代码的识别与翻译
 - ✅ **json翻译**：支持通过json路径(`jsonpath-ng`语法规范)指定json中需要被翻译的值。
@@ -164,7 +164,8 @@ async def main():
        chunk_size=3000,  # 文本分块大小
        concurrent=10,  # 并发数
        # glossary_generate_enable=True, # 启用自动生成术语表
-        # glossary_dict={"Jobs":"乔布斯"} # 传入术语表
+        # glossary_dict={"Jobs":"乔布斯"}, # 传入术语表
+        # system_proxy_enable=True,# 启用系统代理
    )

    # 2. 构建转换器配置 (使用 minerU)
@@ -411,9 +412,7 @@ if __name__ == "__main__":

 翻译功能依赖于大型语言模型，您需要从相应的 AI 平台获取 `base_url`, `api_key` 和 `model_id`。

-> 推荐模型：火山引擎的`doubao-seed-1-6-250615`、`doubao-seed-1-6-flash-250715`、智谱的`glm-4-flash`，阿里云的 `qwen-plus`、
-`qwen-turbo`，deepseek的`
-> deepseek-chat`等。
+> 推荐模型：火山引擎的`doubao-seed-1-6-flash`、`doubao-seed-1-6`系列、智谱的`glm-4-flash`，阿里云的 `qwen-plus`、`qwen-flash`，deepseek的`deepseek-chat`等。

 | 平台名称       | 获取APIkey                                                                              | baseurl                                                  |
 |------------|---------------------------------------------------------------------------------------|----------------------------------------------------------|
@@ -429,6 +428,7 @@ if __name__ == "__main__":
 | 火山引擎       | [点击获取](https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey?apikey=%7B%7D) | https://ark.cn-beijing.volces.com/api/v3                 |
 | 硅基流动       | [点击获取](https://cloud.siliconflow.cn/account/ak)                                       | https://api.siliconflow.cn/v1                            |
 | DMXAPI     | [点击获取](https://www.dmxapi.cn/token)                                                   | https://www.dmxapi.cn/v1                                 |
+| 聚光AI       | [点击获取](https://ai.juguang.chat/console/token)                                                   | https://ai.juguang.chat/v1                                 |

 ### 2. PDF解析引擎（不需要翻译PDF的无需关心此处）

@@ -480,29 +480,31 @@ converter_config = ConverterDoclingConfig(
 ```

 ## FAQ
+**Q: 为什么翻译出来的还是原文**  
+A: 查看一下日志报了什么错，一般是AI平台欠费或网络有问题（查看是否需要开启系统代理）。

-**Q: 8010 端口被占用了怎么办？**
+**Q: 8010 端口被占用了怎么办？**  
 A: 使用 `-p` 参数指定一个新端口，或设置 `DOCUTRANSLATE_PORT` 环境变量。

-**Q: 支持PDF扫描件的翻译吗？**
+**Q: 支持PDF扫描件的翻译吗？**  
 A: 支持。请使用 `mineru` 解析引擎，它具备强大的 OCR 能力。

-**Q: 第一次翻译PDF为什么很慢？**
+**Q: 第一次翻译PDF为什么很慢？**  
 A: 如果您使用 `docling` 引擎，它首次运行时需要从 Hugging Face 下载模型。请参考上文的“网络问题解决方案”来加速此过程。

-**Q: 如何在内网（离线）环境使用？**
+**Q: 如何在内网（离线）环境使用？**  
 A: 完全可以。您需要满足以下条件：

 1. **本地 LLM**: 使用 [Ollama](https://ollama.com/) 或 [LM Studio](https://lmstudio.ai/) 等工具在本地部署语言模型，并在
   `TranslatorConfig` 中填入本地模型的 `base_url`。
 2. **本地PDF解析引擎**（仅解析pdf需要）: 使用 `docling` 引擎，并按照上文“离线使用”的指引提前下载模型包。

-**Q: PDF解析缓存机制是如何工作的？**
+**Q: PDF解析缓存机制是如何工作的？**  
 A: `MarkdownBasedWorkflow` 会自动缓存文档解析（文件到Markdown的转换）的结果，以避免重复解析消耗时间和资源。缓存默认保存在内存中，并会记录最近的10次解析。您可以通过
 `DOCUTRANSLATE_CACHE_NUM` 环境变量来修改缓存数量。

-**Q: 如何让软件可以经过代理**
-A: 软件默认不使用代理，可以通过设置环境变量`DOCUTRANSLATE_PROXY_ENABLED`为`true`让软件通过代理。
+**Q: 如何让软件可以经过代理**  
+A: 软件默认不使用系统代理，可以在`TranslatorConfig中令system_proxy_enable=True` 启用系统代理

 ## Star History