匯入臺灣語料

hue7jip8的Python项目详细描述


Huē-ji̍p

PyPI versionBuild StatusCoverage Status

匯入語料專案,目前語料都放在Taiwanese-Corpus Github,各專案詳細內容請洽各專案README。

會當參考服務的文件

台語

臺灣閩南語常用詞辭典-詞條

  • 形式:全漢、全羅
  • 句數:28830(2018/07/18)
  • 語料:Github
python manage.py 教典詞條

臺灣閩南語常用詞辭典-例句

  • 形式:全漢、全羅
  • 句數:13835(2018/07/05)
  • 語料:Github
python manage.py 教典例句

TGB通訊

  • 形式:漢羅、華語平行語料
  • 句數:35017(2018/07/05)
  • 語料:Github
python manage.py TGB通訊

iCorpus台華平行新聞語料庫

  • 形式:全羅、華語平行語料
  • 句數:83544(2018/07/05)
  • 語料:Github
python manage.py icorpus臺華平行新聞語料庫

教育部詞彙分級計劃

  • 形式:全漢、全羅
  • 句數:61354句(2018/07/05)
  • 語料:API
python manage.py 詞彙分級

台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

  • 形式:漢羅抑是全羅
  • 段數:193071段, 其中漢羅128505段、全羅64566段(2018/07/24)
  • 語料:Github
python manage.py 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

台語文數位典藏資料庫

  • 形式:漢羅、全羅
  • 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
  • 語料:Github
python manage.py 台語文數位典藏資料庫

教育部臺灣閩南語字詞頻調查工作

  • 形式:漢羅、全羅
  • 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
  • 語料:Github
python manage.py 教育部臺灣閩南語字詞頻調查工作

白話字文獻館

  • 形式:漢羅、全羅
  • 段數:43493段,其中31195段對會齊,12298段無法度對齊就用羅馬字(2018/07/31)
  • 語料:Github
python manage.py 白話字文獻館

台灣植物名彙

  • 形式:羅馬字、華語漢字
  • 句數:354詞(2018/07/24)
  • 語料:Github
python manage.py 台灣植物名彙

台灣白話基礎語句

  • 形式:羅馬字、華語漢字
  • 句數:61354詞翻譯對照(2018/07/24)
  • 語料:Github
python manage.py 台灣白話基礎語句

服務文件

族語

族語辭典

python manage.py 族語辭典0下載 Pangcah # 完整匯入。較慢,愛五六工
# python manage.py 族語辭典0下載 Pangcah --下載幾筆 10 # 匯入10筆就好,試驗用
python manage.py 族語辭典1轉檔 Pangcah
python manage.py 族語辭典2匯入 Pangcah

語言代碼請參考程式。下載好的音檔在這。

台語

教典詞條音檔

  • 形式:全漢、全羅
  • 詞數:
  • 語者:王秀容
python manage.py 教典音檔0下載 dropbox # 20160926掠的版本
# python manage.py 教典音檔0下載 官網沓沓掠 # 較慢,愛一工
python manage.py 教典音檔1轉檔 # 轉全部mp3音檔做16000Hz的wav
# python manage.py 教典音檔1轉檔 --匯入幾筆 100 # 轉100筆就好,試驗用
python manage.py 教典音檔2匯入 # 完整匯入
# python manage.py 教典音檔2匯入 --匯入幾筆 100 # 匯入100筆就好,試驗用

新北市900例句

  • 形式:全漢、全羅
  • 句數:150句
  • 語者:王秀容
python manage.py 新北市900例句 --頻率 16000 # 原始音檔頻率44100Hz

準做欲用秀容老師的聲,請配合教典做伙用,無訓練會產生錯誤

台文/華文線頂辭典

形式:台華英辭典 詞數:

python manage.py 台華辭典

臺灣閩南語卡拉OK正字字表

  • pdf→純文字→臺灣言語資料庫yaml
  • 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml

iCorpus台華平行新聞語料庫漢字臺羅版

  • 純文字→臺灣言語資料庫yaml
  • 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml

咱的字你敢捌-台語漢字

  • html→臺灣言語資料庫yaml
  • 臺語→臺語
  • 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml

臺語國校仔課本

  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅 0* https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml

新約聖經語料

  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅
  • https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml

猶未整理

遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`

客家話

教育部臺灣客家語常用詞辭典

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml

客語能力認證資料檔

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml

猶未整理

族語

族語E樂園

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml

阿美語方敏英字典Virginia Fey's Amis Dictionary

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml

猶未整理

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
空字符串检查在java中未按预期工作   JavaSpringWebClient:自动计算主体的HMAC签名并将其作为头传递   foreach是否有一个Java等效的foreach循环和一个引用变量?   java如何在Eclipse中导入jar   使用特定第三方或java时lombok触发错误。*方法或构造函数   安卓 java将对象数组转换为int数组   java使一定百分比的JUnit测试通过   java Android:将Seekbar的一个值与另一个值进行比较   java将int数组(图像数据)写入文件的最佳方式是什么   java取代了系统。yml的构造函数内的getProperty   sqlite Java将公钥和私钥转换为字符串,然后再转换回字符串   安卓获取白色像素并将其保存到java opencv中的数组中   java为什么是ServerSocket。setSocketFactory静态?   Java数组似乎在不直接修改的情况下更改值