TOK(知識論)的論文和 Extended Essay 一直是 IB 學生的苦😭️
爲了換換腦子,我抽空更新了吳語協會式上海話輸入法 rime_yahwe_zaonhe
。這次 major update 主要是詞庫上的,附帶我自定義的一些簡寫設置。
首次發佈時的文章鏈接:https://zhuanlan.zhihu.com/p/62118563;安裝輸入法請移步 GitHub:https://github.com/edward-martyr/rime-yahwe_zaonhe。
主要更新
大量生僻字(13444+1022=14466個新增讀音)
第一版輸入法的字音都是我從佛振的 rime-wugniu
修改拼音方案而來的。因爲是詞組和字混在一起的,所以我沒記過具體字數。加上詞組一共有 47557 條,目測(哪恁做得到個)大概單字 一萬不到。因此對比看這次更新體量相當大。
字音來源全部是吳語學堂的松江方案,但是這個方案我改得真的好苦😭️。以下是 wugniu_sonkaon.dict.yaml
奇怪的 behaviour 舉隅(單字和詞組部分都有的問題):
- 第29730行
手車 seu tshoe
:爲啥體 indent 前面會有一隻空格呢?? - 33970
拆屁蟲 tshaq ohi zon
:明顯o/p
是 typo。。 - 33678–33679
阿aeq爹 \n阿aq媽
:字音爲何在詞組當中?詞組後爲何還有 indentation?兩個「阿」字音居然不同? - 33150
辛
:就一個字這行不是廢了嗎… - 34128
苦楝樹 khujgy ziu
:拼音連在一起,還看不懂;; - etc.,這些都是我反覆檢查才發現的好嗎…
總之修復詞典本身就好費勁。
後要修改拼音方案及口音,就輕鬆不少。q | gn | aeq (ah) | aq (aoh) | …
。我知道 aoh
不是標準吳協拼法但我就是感覺和 an | aon
放在一起比較和諧🥳。
口音分兩塊,一個是松江和市區本身的區別:oeh->eh | ieh->ih | aoh->oh | f(u)(部分)->hu | v(u)(部分)->wu
。修改 fu | vu
的時候我全部參考朙月拼音是否聲母爲 f
。例如 𪎮 fe -> hue
(松江人民當真是這樣發音的?)。
另一個是詞表本身只有部分的煙衣之分、藍來之分。我全按照朙月尖團的詞表中 -[nm]
改了。這裏的難點在於有些字的多種讀法中有的前鼻音有的沒有,而幸運的是這一類字詞表本身都分清楚了(神仙詞表?)。我的三腳貓(此處唸 mae$ _\text{蘇州}$)編程:
out = []
r = re.compile(r"(.*)(?<!i)i$")
r2 = re.compile("h")
r3 = re.compile("(.*)[mn]$")
for w in d2:
if w not in missing:
if list(filter(r3.match, d3[w])) and not list(filter(r.match, d3[w])):
d2[w]= [re.sub(r'i$', 'ie', pron) for pron in d2[w]]
d2[w]= [re.sub(r'(?<![iao])e$', 'ae', pron) for pron in d2[w]]
if list(filter(r2.match, d3[w])):
d2[w]= [re.sub(r'f', 'h', pron) for pron in d2[w]]
d2[w]= [re.sub(r'v', 'w', pron) for pron in d2[w]]
for p in d2[w]:
out.append(w+'\t'+p)
詞組
松江詞典的本地詞組很豐富。因爲沒什麼方法區分到底是市區也用還是松江-exclusive 的,一併併入碼表。
隨便舉例:
- 麻將棺材根
- 做𤎤𡮦
- 做三朝
- 眼赤眼對
- 掮樣荷報
- 捩條箍
- 𧺢五𧺢六
- 額角頭路嵌字
- 醬甏裏落蘇揀軟個
都很有意思,可惜大部分我也不瞭解。
就這樣吧!TOK 論文忽有靈感!