满文字母频率统计分析

元音字母频率排名

字母 本土文本平均 翻译修正后 词典修正后 总频率 排名

辅音字母频率排名

字母 本土文本平均 翻译修正后 词典修正后 总频率 排名

分析说明:

原始数据

满文字母出现频次统计

| 字母 | 话条子(本土) | 庸言知旨(本土) | 大清律序(本土) | 尸语故事(翻译) | 金瓶梅(翻译) | 增清(词典) | 新满汉(词典) |
|------|-------------|---------------|---------------|---------------|-------------|-----------|-------------|
| n    | 5193        | 5282          | 546           | 7277          | 25726       | 10074     | 5997        |
| b    | 4927        | 5148          | 524           | 5423          | 18386       | 10933     | 9601        |
| m    | 4190        | 4822          | 393           | 5504          | 19023       | 9344      | 7450        |
| ...  | ...         | ...           | ...           | ...           | ...         | ...       | ...         |
| a    | 12959       | 13363         | 1063          | 14067         | 48761       | 21812     | 12969       |
| e    | 12106       | 13229         | 1266          | 17320         | 56009       | 14522     | 8327        |
| i    | 11982       | 11575         | 1025          | 14510         | 54726       | 20469     | 14263       |
            

各文本总字符数

文本类型 话条子 庸言知旨 大清律序 尸语故事 金瓶梅 增清 新满汉
总字符数 129,520 132,904 10,841 173,318 487,614 218,122 129,697

详细计算过程

1. 数据预处理

计算各文本中字母的相对频率:

频率计算公式:
单个字母频率 = 字母出现次数 / 文本总字符数 × 100%

示例计算字母'n'在《话条子》中的频率:
5193 / 129520 × 100% ≈ 4.01%
            

2. 分类别频率计算

计算三类文本的平均频率:

本土文本平均频率 = (话条子频率 + 庸言知旨频率 + 大清律序频率) / 3
翻译文学平均频率 = (尸语故事频率 + 金瓶梅频率) / 2
词典平均频率 = (增清频率 + 新满汉频率) / 2

示例计算字母'n'的三类频率:
本土:(4.01% + 3.97% + 5.04%) / 3 ≈ 4.34%
翻译:(4.20% + 5.28%) / 2 ≈ 4.74%
词典:(4.62% + 4.62%) / 2 ≈ 4.62%
            

3. 偏差修正

对特定字母进行频率修正:

// 音译及表达影响字母(p, ū)在翻译数据中降低10%
if (字母 in ['p', 'ū']) {
    翻译修正后频率 = 翻译原始频率 × 0.9
}

// 动词形态字母(b, m)在词典数据中降低40%
if (字母 in ['b', 'm']) {
    词典修正后频率 = 词典原始频率 × 0.6
}

示例修正字母'p':
翻译原始频率:0.23% → 修正后:0.23% × 0.9 ≈ 0.21%
            

4. 加权总频率计算

按权重计算最终频率:

总频率 = (本土平均 × 0.8) + (翻译修正后 × 0.1) + (词典修正后 × 0.1)

示例计算字母'n'的总频率:
(4.34% × 0.8) + (4.74% × 0.1) + (4.62% × 0.1) ≈ 4.41%
            

5. 元音/辅音分组排序

元音字母:a, e, i, o, u, ū
辅音字母:其他所有字母

分别按总频率降序排列,生成最终排名