| 字母 | 本土文本平均 | 翻译修正后 | 词典修正后 | 总频率 | 排名 |
|---|
| 字母 | 本土文本平均 | 翻译修正后 | 词典修正后 | 总频率 | 排名 |
|---|
| 字母 | 话条子(本土) | 庸言知旨(本土) | 大清律序(本土) | 尸语故事(翻译) | 金瓶梅(翻译) | 增清(词典) | 新满汉(词典) |
|------|-------------|---------------|---------------|---------------|-------------|-----------|-------------|
| n | 5193 | 5282 | 546 | 7277 | 25726 | 10074 | 5997 |
| b | 4927 | 5148 | 524 | 5423 | 18386 | 10933 | 9601 |
| m | 4190 | 4822 | 393 | 5504 | 19023 | 9344 | 7450 |
| ... | ... | ... | ... | ... | ... | ... | ... |
| a | 12959 | 13363 | 1063 | 14067 | 48761 | 21812 | 12969 |
| e | 12106 | 13229 | 1266 | 17320 | 56009 | 14522 | 8327 |
| i | 11982 | 11575 | 1025 | 14510 | 54726 | 20469 | 14263 |
| 文本类型 | 话条子 | 庸言知旨 | 大清律序 | 尸语故事 | 金瓶梅 | 增清 | 新满汉 |
|---|---|---|---|---|---|---|---|
| 总字符数 | 129,520 | 132,904 | 10,841 | 173,318 | 487,614 | 218,122 | 129,697 |
计算各文本中字母的相对频率:
频率计算公式:
单个字母频率 = 字母出现次数 / 文本总字符数 × 100%
示例计算字母'n'在《话条子》中的频率:
5193 / 129520 × 100% ≈ 4.01%
计算三类文本的平均频率:
本土文本平均频率 = (话条子频率 + 庸言知旨频率 + 大清律序频率) / 3
翻译文学平均频率 = (尸语故事频率 + 金瓶梅频率) / 2
词典平均频率 = (增清频率 + 新满汉频率) / 2
示例计算字母'n'的三类频率:
本土:(4.01% + 3.97% + 5.04%) / 3 ≈ 4.34%
翻译:(4.20% + 5.28%) / 2 ≈ 4.74%
词典:(4.62% + 4.62%) / 2 ≈ 4.62%
对特定字母进行频率修正:
// 音译及表达影响字母(p, ū)在翻译数据中降低10%
if (字母 in ['p', 'ū']) {
翻译修正后频率 = 翻译原始频率 × 0.9
}
// 动词形态字母(b, m)在词典数据中降低40%
if (字母 in ['b', 'm']) {
词典修正后频率 = 词典原始频率 × 0.6
}
示例修正字母'p':
翻译原始频率:0.23% → 修正后:0.23% × 0.9 ≈ 0.21%
按权重计算最终频率:
总频率 = (本土平均 × 0.8) + (翻译修正后 × 0.1) + (词典修正后 × 0.1)
示例计算字母'n'的总频率:
(4.34% × 0.8) + (4.74% × 0.1) + (4.62% × 0.1) ≈ 4.41%
元音字母:a, e, i, o, u, ū
辅音字母:其他所有字母
分别按总频率降序排列,生成最终排名