Hy-MT1.5-1.8B-1.25bit

Hy-MT1.5-1.8B-1.25bit – 腾讯混元开源的手机端离线翻译模型

Hy-MT1.5-1.8B-1.25bit：腾讯混元颠覆性手机离线翻译模型

腾讯混元团队继推出强大的 Hy-MT1.5-1.8B 翻译大模型之后，再度发力，带来了一款名为 Hy-MT1.5-1.8B-1.25bit 的极致量化压缩版本。这款模型以其惊人的体积和卓越的性能，为手机端离线翻译领域树立了新的标杆。

Hy-MT1.5-1.8B-1.25bit 的诞生，源于对 18 亿参数的 Hy-MT1.5-1.8B 混元翻译大模型的深度优化。通过腾讯独创的 Sherry 稀疏三值量化技术，模型被巧妙地压缩至仅 440MB 的惊人尺寸。这意味着，即便是存储空间有限的手机，也能轻松容纳并流畅运行这一强大的翻译引擎。更令人瞩目的是，Hy-MT1.5-1.8B-1.25bit 能够支持多达 33 种主流语言、5 种特色方言（包括民汉互译），并覆盖 1056 个翻译方向。最关键的是，它实现了完全的离线运行，无需网络连接，即可在手机本地提供翻译服务，并且在翻译质量上，已超越了谷歌翻译等业界领先的商业系统。

Hy-MT1.5-1.8B-1.25bit 的核心功能充分展现了其在移动场景下的实用价值：

全语言离线互译：无论是中英、法日等国际通用语言，还是藏语、蒙古语等具有地方特色的语言，都能实现无缝的离线互译，支持的翻译方向高达 1056 个。
原生本地体验：一旦模型下载完成，便可彻底摆脱对网络的依赖，实现真正的离线翻译，不仅省时省力，更有效保护用户隐私，避免流量消耗。
便捷后台取词：配套的演示应用（Demo）提供了“后台取词模式”，用户在浏览网页或阅读邮件时，只需轻轻一点，即可随时调用翻译功能，极大提升了工作效率。
即时文本翻译：无论是手动输入还是粘贴文本，模型都能迅速生成翻译结果，并支持一键复制，方便用户将译文用于其他场景。
灵活多语言切换：用户可以切换任意语言对之间的双向翻译，满足不同场景下的翻译需求。

Hy-MT1.5-1.8B-1.25bit 之所以能实现如此出色的表现，离不开其背后先进的技术支撑：

坚实的基础模型：模型以 1.8B 参数的 Hy-MT1.5-1.8B 混元翻译大模型为基石，该模型经历了“通用预训练→MT定向预训练→监督微调→在线蒸馏→强化学习”的多阶段严苛训练，奠定了其强大的翻译能力。
性的 Sherry 稀疏三值量化：这项创新技术实现了平均每参数仅需 1.25 bit 的存储。其精细的稀疏策略使得每 4 个参数中，有 3 个采用 1-bit（-1 或 1）存储，另 1 个置为 0，从而大幅压缩模型体积。
专为手机优化的 STQ 内核：腾讯自主研发的稀疏三值量化（STQ）推理内核，深度适配手机 CPU 的 SIMD 指令集，确保了高效的数据解码和推理速度。
量化感知训练（QAT）：在训练过程中引入分布对齐与偏移优化，有效缓解了超低比特量化可能带来的精度损失，保证了翻译质量。
GRPO 强化学习：采用 Group Relative Policy Optimization 算法，结合多维度的评分标准（涵盖准确性、流畅度、一致性、文化适宜性及可读性），对翻译结果进行精细优化，力求达到最佳的翻译效果。

想要体验 Hy-MT1.5-1.8B-1.25bit 的用户，可以通过以下方式进行：

下载安装：用户可从魔搭社区（https://modelscope.cn/models/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/master/Hy-MT-demo.apk）或 HuggingFace 下载并安装配套的演示应用（Demo APK）。
首次加载：应用启动后会自动下载并加载 440MB 的模型文件，加载完成后即可立即使用。
便捷翻译：在应用内输入或粘贴待翻译文本，点击“Translate”按钮即可进行离线翻译。底部语言栏允许用户轻松切换不同的翻译方向。
即时后台翻译：在其他应用程序中，长按选中文本，选择“离线翻译”选项，翻译结果将直接显示在悬浮窗中，无需切换应用。

Hy-MT1.5-1.8B-1.25bit 的关键信息和使用要求如下：

发布方：腾讯混元团队
模型参数：1.8B
量化精度：1.25-bit（Sherry 稀疏三值量化）
模型体积：440MB
支持平台：目前提供安卓 Demo 版，iOS 正式版敬请期待。
开源协议：模型权重、代码及技术报告已全面开源。
系统要求：安卓手机（Demo 版暂不支持 iOS）。
内存建议：建议手机内存不低于 8GB（演示设备为骁龙 865/888/7+Gen2，8GB/16GB 内存）。
存储空间：请预留约 500MB 的存储空间用于模型下载。
网络要求：首次下载模型时需要网络连接，之后可完全离线使用。

Hy-MT1.5-1.8B-1.25bit 的核心优势在于其颠覆性的轻量化、卓越的翻译质量、极快的推理速度、全面的离线安全以及广泛的硬件适配性：

极致轻量化：440MB 的模型体积相较于原始 FP16 版本（3.3GB）压缩了约 7.5 倍，使得普通手机也能轻松实现模型常驻后台，随时调用。
高水准翻译质量：在 Flores-200、WMT25 等权威评测基准上，1.8B 的原始模型性能已超越了谷歌翻译、百度翻译、微软翻译等商业 API，以及 Tower-Plus-72B、Qwen3-32B 等更大规模的开源模型。经过 1.25-bit 量化后，模型在保持极小体积的同时，翻译质量损失极小。
闪电般的推理速度：借助专用的 STQ 内核，在骁龙 888 手机上，翻译速度比 FP16 版本提升了约 8 倍（从 58.2 秒缩短至 1.9 秒），用户体验得到极大提升。
全离线，零隐私风险：所有翻译过程均在手机本地完成，无需上传任何数据，用户数据隐私得到充分保障。同时，无需订阅费用，一次下载即可永久使用。
广泛的硬件兼容性：1.25-bit 量化方案对 SIMD 指令集高度友好，确保了所有安卓机型都能流畅运行，为用户带来了普惠性的翻译体验。

Hy-MT1.5-1.8B-1.25bit 的项目地址：

HuggingFace 模型库：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
arXiv 技术论文：https://arxiv.org/pdf/2512.24092

Hy-MT1.5-1.8B-1.25bit 在同类竞品中展现出显著优势：

对比维度	Hy-MT1.5-1.8B-1.25bit	Tower-Plus-72B	谷歌翻译 (Google Translate API)
产品定位	端侧离线翻译大模型	开源翻译专用大模型	商业云端翻译服务
发布方	腾讯混元	Unbabel / 社区	Google
模型体积	440 MB	145 GB	云端部署（无本地体积）
参数量	1.8B	72B	未公开
运行方式	手机本地离线运行	需服务器 / A100 等高性能 GPU	云端 API 调用
联网需求	❌ 完全不需要	✅ 需部署在服务器	✅ 必须联网
支持语言	33 种 + 5 种方言/民汉	多语言	100+ 种语言
Flores-200 (ZH↔XX)	82.2	79.7	69.3
Flores-200 (EN↔XX)	87.4	86.2	77.0
WMT25	57.0	41.0	38.9
Minority↔Mandarin	59.1	35.4	33.4
推理速度	极快（骁龙888仅 1.9 秒）	慢（72B 大模型推理成本高）	依赖网络延迟（通常 1–3 秒）