字母 | 本土文本平均 | 翻译修正后 | 词典修正后 | 总频率 | 排名 |
---|
字母 | 本土文本平均 | 翻译修正后 | 词典修正后 | 总频率 | 排名 |
---|
| 字母 | 话条子(本土) | 庸言知旨(本土) | 大清律序(本土) | 尸语故事(翻译) | 金瓶梅(翻译) | 增清(词典) | 新满汉(词典) | |------|-------------|---------------|---------------|---------------|-------------|-----------|-------------| | n | 5193 | 5282 | 546 | 7277 | 25726 | 10074 | 5997 | | b | 4927 | 5148 | 524 | 5423 | 18386 | 10933 | 9601 | | m | 4190 | 4822 | 393 | 5504 | 19023 | 9344 | 7450 | | ... | ... | ... | ... | ... | ... | ... | ... | | a | 12959 | 13363 | 1063 | 14067 | 48761 | 21812 | 12969 | | e | 12106 | 13229 | 1266 | 17320 | 56009 | 14522 | 8327 | | i | 11982 | 11575 | 1025 | 14510 | 54726 | 20469 | 14263 |
文本类型 | 话条子 | 庸言知旨 | 大清律序 | 尸语故事 | 金瓶梅 | 增清 | 新满汉 |
---|---|---|---|---|---|---|---|
总字符数 | 129,520 | 132,904 | 10,841 | 173,318 | 487,614 | 218,122 | 129,697 |
计算各文本中字母的相对频率:
频率计算公式: 单个字母频率 = 字母出现次数 / 文本总字符数 × 100% 示例计算字母'n'在《话条子》中的频率: 5193 / 129520 × 100% ≈ 4.01%
计算三类文本的平均频率:
本土文本平均频率 = (话条子频率 + 庸言知旨频率 + 大清律序频率) / 3 翻译文学平均频率 = (尸语故事频率 + 金瓶梅频率) / 2 词典平均频率 = (增清频率 + 新满汉频率) / 2 示例计算字母'n'的三类频率: 本土:(4.01% + 3.97% + 5.04%) / 3 ≈ 4.34% 翻译:(4.20% + 5.28%) / 2 ≈ 4.74% 词典:(4.62% + 4.62%) / 2 ≈ 4.62%
对特定字母进行频率修正:
// 音译及表达影响字母(p, ū)在翻译数据中降低10% if (字母 in ['p', 'ū']) { 翻译修正后频率 = 翻译原始频率 × 0.9 } // 动词形态字母(b, m)在词典数据中降低40% if (字母 in ['b', 'm']) { 词典修正后频率 = 词典原始频率 × 0.6 } 示例修正字母'p': 翻译原始频率:0.23% → 修正后:0.23% × 0.9 ≈ 0.21%
按权重计算最终频率:
总频率 = (本土平均 × 0.8) + (翻译修正后 × 0.1) + (词典修正后 × 0.1) 示例计算字母'n'的总频率: (4.34% × 0.8) + (4.74% × 0.1) + (4.62% × 0.1) ≈ 4.41%
元音字母:a, e, i, o, u, ū 辅音字母:其他所有字母 分别按总频率降序排列,生成最终排名