語料庫建置方式的建議:
如果沒辦法直接有文字版新聞語料,可以問問看台語廣播電台有沒有逐字稿; 如果沒有,就請工讀生訓練他們聽台語新聞來打字。 請高成炎買 Mac,找工讀生練習用 OVPOJ 來打台語新聞的逐字稿。
目標是至少有五十萬句的語料,這樣做出來的 language model 才會有實用價值。