OPUS
OPUS (အၚ်္ဂလိက်: Open Parallel Corpus ဟွံသေင်မ္ဂး တိုက်ဗှ်လိက် ဝါကျတွဲဘာသာ မသ္ကုင္ၚုဟ်) ဟီုမ္ဂးဂှ် ဒှ်တိုက်ဗှ်လိက် ဇၞော်အိုတ် ပ္ဍဲဂၠးတိ မပကောံလဝ် လိက်ဝါကျ တွဲဘာသာ (Parallel Corpora) နာနာ သွက်ဂွံ စကာ ပ္ဍဲသွာင် ပွမသ္ၚဳဂၠိပ် အရေဝ်ဘာသာ သဘာဝ (NLP) ကေုာံ ပညာ ဉာဏ်စက် (AI) ရ။
တံင်ပရိုင် (Database) OPUS ဝွံ ညးမကၠောန်ဗဒှ်ဂှ် ဒှ် တၠပညာ သိပ္ပံ ခမ်ပျူတာ ဂျောက် တဳဒေမာန် (Jörg Tiedemann) နူကဵု တက္ကသိုလ် ဟေလ်သိလ်ကဳ (University of Helsinki) ရ။
ဗီုလဵု ဍေံ ကၠောန်ကမၠောန်? (How does it work?)
ပလေဝ်ဒါန်OPUS ဝွံ ပကောံ တင်ဂၞင် (Data) နူကဵု တံင်ပရိုင် မသ္ကုင္ၚုဟ်မး နာနာ မပ္တံကဵု-
- ပြကိုဟ်ဘာသာ (ဥပမာ - လိက်သမ္မာ)
- လိက်လလောင်တရး သၞောဝ်ဥပဒေ (ဥပမာ - နူ သဟဖာတ် ဥရဝ်ပ - EU)
- လိက်စၞောန်ပညုင် သာပ်ဝဴ (ဥပမာ - OpenOffice, KDE)
- လိက်သၟဝ် ရုပ်ဒပ် (Movie Subtitles - OpenSubtitles)
- လိက်ဟီု TED Talks ကေုာံ လိက်ပရိုင်ဂမၠိုင်
တင်ဂၞင်တအ်ဂှ် ဍေံတအ် စကာ အဝ်ဂဝ်ရဳတာမ် (Algorithms) သွက်ဂွံ ပါ်ကရေက် ဝါကျ (Sentence segmentation) တုဲ တွဲစုင် ဝါကျဘာသာမွဲ ကု ဝါကျဘာသာမွဲ (Sentence alignment) ညံင်ဂွံ ဒှ် ဝါကျတွဲဘာသာ (Parallel sentences) ရ။
ကိစ္စဇၞော် (Importance)
ပလေဝ်ဒါန်တိုက်ဗှ်လိက် တွဲဘာသာဏအ်ဝွံ ကိစ္စဇၞော် ဗွဲမန် သွက်ဂွံ လ္ၚတ်ကတ်ေ (Train) ဉာဏ်စက် ညံင်ဂွံ ကၠိုဟ် စက်ကၠာဲဘာသာ (Machine Translation ဗီုကဵု Google Translate) မာန်ရ။ ယဝ်ရ တိုက်ဗှ်လိက် OPUS မၞုံကဵု တင်ဂၞင် လိက်မန် ဂၠိုင်ဂၠေင်မ္ဂး ဉာဏ်စက်တအ် ကၠိုဟ် အရေဝ်မန် ပြဟ်ပြဟ်ရ။
ဗၞတ်ဗ္စ (Scale)
ပလေဝ်ဒါန်အတိုင် တင်ဂၞင် v2024 မ္ဂး OPUS နွံကဵု:
- ၁,၂၁၄ တိုက်ဗှ်လိက်သၟတ်။
- ကံက်ကေတ် အရေဝ်ဘာသာ ဗွဲမဂၠိုင်ဂၠေင် (၁၀၀၅ ဘာသာ)။
- ဝါကျ တွဲဘာသာ ကိုတ် ကဵု ကိုတ် (Billions of sentence pairs)။