昊天镜汉语U学

🎯 音色来源

📁

上传音频

🎵

默认音色

🎓

训练音色

上传音色参考音频

📁 点击选择音频文件

支持 WAV, MP3, M4A 等格式

选择训练音色

暂无训练音色，请先训练音色

选择预设音色

ℹ️

默认音色来源

当未选择任何音色时，系统将自动使用：
merged_all_audios.wav

👩 女声

女声1 - 温柔

女声2 - 活泼

女声3 - 知性

女声4 - 甜美

女声5 - 成熟

👨 男声

男声1 - 磁性

男声2 - 阳光

男声3 - 沉稳

男声4 - 年轻

男声5 - 威严

🎲 音色种子

种子数字决定音色特征，相同种子产生相同音色

😊 情感选择

中性

开心

悲伤

愤怒

惊讶

恐惧

厌恶

兴奋

🎓 已训练音色

暂无训练音色

🎯 学习模式

🔍

拼音分解

🎓

学习音频

📚 可用拼音音频

加载中...

📝 输入文本

🎯 []标签功能：使用 [汉字] 或 [英文字母] 可将标签内容拆分为拼音拼读，例如：你好[世界]，[hello]世界

🔍 音频质量检测配置

启用音频质量检测

开启后将对生成的音频进行质量检测，不合格时自动重试

质量阈值: 0.8

阈值越高，音频质量要求越严格

最大重试次数: 3

质量检测失败时的最大重试次数

启用频谱分析

分析音频频谱特征，检测异常频率

启用噪音检测

检测背景噪音水平，确保音频清晰度

启用音量标准化

自动调整音频音量到标准水平

📋 参数预设模板

选择预设模板:

保存自定义预设:

自定义预设列表:

暂无自定义预设

⚙️ 高级参数设置 ▲

情感强度 (emo_alpha): 0

使用随机情感 (use_random)

间隔静音时长 (interval_silence)

最大文本标记数 (max_text_tokens_per_segment)

情感描述词 (emotion_description)

💡 提示：输入情感描述词可以更精确地控制语音的情感表达，如"温柔的"、"激动的"、"悲伤的"等

🎛️ GPT生成参数控制

Temperature (温度参数): 0.1

🌡️ 控制生成的随机性：0=完全确定，1=平衡，2=高随机性
💡 较低值产生更一致的结果，较高值增加创造性和多样性

Top-p (核采样): 0.1

🎯 控制候选词汇范围：0.1=只考虑最可能的10%，1.0=考虑所有词汇
💡 较低值提高一致性，较高值增加词汇多样性

Top-k (候选数量): 1

🔢 限制候选token数量：1=只选最可能的，100=考虑更多选择
💡 较小值提高确定性，较大值增加生成多样性

Repetition Penalty (重复惩罚): 1.5

🔄 防止重复生成：1.0=无惩罚，1.5=适度惩罚，2.0=强烈惩罚
💡 较高值减少重复，但过高可能影响自然度

Length Penalty (长度惩罚): 1.0

📏 控制生成长度：<1.0=偏向短序列，1.0=中性，>1.0=偏向长序列
💡 影响音频时长，根据需要调整

Max Mel Tokens (最大音频长度): 75

⏱️ 限制最大音频长度：300=短音频，1500=中等，3000=长音频
💡 防止生成过长音频，影响处理速度和内存使用

🧠 智能计算模式 (当使用默认值200时生效):

💡 手动设置非默认值时，将优先使用您的设置

🎯 单字符确定性模式

启用后，单字符输入将使用完全确定的生成参数，确保每次生成的时长一致
💡 适用于需要精确时长控制的单字符语音合成场景，即使非单字符也可通过此模式控制生成

我的自定义预设:

暂无自定义预设

使用说明:
• 选择预设模板可快速应用专业配置
• 保存自定义预设可重复使用个人配置
• 导出/导入功能支持预设备份和分享

📖 使用说明与功能介绍 ▼

🎯 音频质量检测与自动重试

功能介绍：智能分析生成的音频质量，自动检测并重试低质量音频。

检测指标：

音量平衡 - 检测音频是否过小声或过大声
音频长度 - 验证生成长度是否合理
采样率质量 - 确保音频采样率符合标准
频谱分析 - 检测音频频谱是否正常
噪音水平 - 识别异常噪音或静音

使用建议：

质量阈值建议设置为60-70，平衡质量与速度
重试次数建议3次，获得最佳质量保证
快速生成时可关闭质量检测提升速度

📋 参数预设模板

预设模板介绍：

🎯 默认设置：平衡质量与速度，适合日常使用
💎 高质量模式：最佳音质，适合重要场合
⚡ 快速生成：优先速度，适合批量处理
😊 情感丰富：增强表现力，适合情感表达
🎪 稳定模式：一致性优先，适合标准化需求
🎨 创意模式：多样化表达，适合创意内容

自定义预设：

保存当前参数配置为个人预设
支持导出/导入预设文件，便于备份和分享
可随时删除不需要的自定义预设

⚙️ 高级参数详解

核心参数：

Temperature (0.1-2.0)：控制生成的随机性，越低越稳定
Top-P (0.1-1.0)：核采样参数，控制词汇选择范围
Top-K (1-100)：限制候选词数量，影响多样性
Repetition Penalty (1.0-2.0)：重复惩罚，避免重复内容
Length Penalty (0.0-2.0)：长度惩罚，控制生成长度
Max Mel Tokens (1-3000)：最大音频长度限制

情感控制：

Emo Alpha (0.0-1.0)：情感强度，0为无情感，1为最强情感
配合情感选择使用，可实现丰富的情感表达

💡 使用技巧与注意事项

文本输入技巧：

使用标点符号控制语音节奏和停顿
利用[汉字]或[英文]标签实现拼音拼读
适当的文本长度获得更好的效果

参数调优建议：

初学者建议使用预设模板
需要稳定输出时降低Temperature
需要创意表达时适当提高随机性参数

性能优化：

长文本建议分段处理
批量生成时可关闭质量检测
合理设置最大音频长度避免内存问题

❓ 常见问题解答

Q: 生成的音频质量不佳怎么办？

A: 启用音频质量检测，调整质量阈值，或尝试高质量模式预设。

Q: 如何获得更稳定的输出？

A: 使用稳定模式预设，或手动降低Temperature和Top-P参数。

Q: 生成速度太慢怎么办？

A: 使用快速生成预设，关闭质量检测，或减少最大音频长度。

Q: 如何保存和分享我的参数配置？

A: 使用自定义预设功能保存配置，通过导出功能生成配置文件分享。

正在生成语音...

🎤 昊天镜汉语U学

👩 女声

👨 男声

🎛️ GPT生成参数控制

🎯 音频质量检测与自动重试

📋 参数预设模板

⚙️ 高级参数详解

💡 使用技巧与注意事项

❓ 常见问题解答

🎵 生成结果

🎵 学习结果