TOK(知識論)的論文和 Extended Essay 一直是 IB 學生的苦😭️

爲了換換腦子,我抽空更新了吳語協會式上海話輸入法 rime_yahwe_zaonhe。這次 major update 主要是詞庫上的,附帶我自定義的一些簡寫設置。

首次發佈時的文章鏈接:https://zhuanlan.zhihu.com/p/62118563;安裝輸入法請移步 GitHub:https://github.com/edward-martyr/rime-yahwe_zaonhe。

主要更新

大量生僻字(13444+1022=14466個新增讀音)

第一版輸入法的字音都是我從佛振的 rime-wugniu 修改拼音方案而來的。因爲是詞組和字混在一起的,所以我沒記過具體字數。加上詞組一共有 47557 條,目測(哪恁做得到個)大概單字 一萬不到。因此對比看這次更新體量相當大。

字音來源全部是吳語學堂的松江方案,但是這個方案我改得真的好苦😭️。以下是 wugniu_sonkaon.dict.yaml 奇怪的 behaviour 舉隅(單字和詞組部分都有的問題):

  • 第29730行 手車 seu tshoe:爲啥體 indent 前面會有一隻空格呢??
  • 33970 拆屁蟲 tshaq ohi zon:明顯 o/p 是 typo。。
  • 33678–33679 阿aeq爹 \n阿aq媽 :字音爲何在詞組當中?詞組後爲何還有 indentation?兩個「阿」字音居然不同?
  • 33150 :就一個字這行不是廢了嗎…
  • 34128 苦楝樹 khujgy ziu:拼音連在一起,還看不懂;;
  • etc.,這些都是我反覆檢查才發現的好嗎…

總之修復詞典本身就好費勁。

後要修改拼音方案及口音,就輕鬆不少。q | gn | aeq (ah) | aq (aoh) | …。我知道 aoh 不是標準吳協拼法但我就是感覺和 an | aon 放在一起比較和諧🥳。

口音分兩塊,一個是松江和市區本身的區別:oeh->eh | ieh->ih | aoh->oh | f(u)(部分)->hu | v(u)(部分)->wu。修改 fu | vu 的時候我全部參考朙月拼音是否聲母爲 f。例如 𪎮 fe -> hue(松江人民當真是這樣發音的?)。

另一個是詞表本身只有部分的煙衣之分、藍來之分。我全按照朙月尖團的詞表中 -[nm] 改了。這裏的難點在於有些字的多種讀法中有的前鼻音有的沒有,而幸運的是這一類字詞表本身都分清楚了(神仙詞表?)。我的三腳貓(此處唸 mae$ _\text{蘇州}$)編程:

out = []

r = re.compile(r"(.*)(?<!i)i$")
r2 = re.compile("h")
r3 = re.compile("(.*)[mn]$")

for w in d2:
	if w not in missing:
		if list(filter(r3.match, d3[w])) and not list(filter(r.match, d3[w])):
			d2[w]= [re.sub(r'i$', 'ie', pron) for pron in d2[w]]
			d2[w]= [re.sub(r'(?<![iao])e$', 'ae', pron) for pron in d2[w]]
		if list(filter(r2.match, d3[w])):
			d2[w]= [re.sub(r'f', 'h', pron) for pron in d2[w]]
			d2[w]= [re.sub(r'v', 'w', pron) for pron in d2[w]]
		for p in d2[w]:
			out.append(w+'\t'+p)

詞組

松江詞典的本地詞組很豐富。因爲沒什麼方法區分到底是市區也用還是松江-exclusive 的,一併併入碼表。

隨便舉例:

  • 麻將棺材根
  • 做𤎤𡮦
  • 做三朝
  • 眼赤眼對
  • 掮樣荷報
  • 捩條箍
  • 𧺢五𧺢六
  • 額角頭路嵌字
  • 醬甏裏落蘇揀軟個

都很有意思,可惜大部分我也不瞭解。

就這樣吧!TOK 論文忽有靈感!