OPUS (အၚ်္ဂလိက်: Open Parallel Corpus ဟွံသေင်မ္ဂး တိုက်ဗှ်လိက် ဝါကျတွဲဘာသာ မသ္ကုင္ၚုဟ်) ဟီုမ္ဂးဂှ် ဒှ်တိုက်ဗှ်လိက် ဇၞော်အိုတ် ပ္ဍဲဂၠးတိ မပကောံလဝ် လိက်ဝါကျ တွဲဘာသာ (Parallel Corpora) နာနာ သွက်ဂွံ စကာ ပ္ဍဲသွာင် ပွမသ္ၚဳဂၠိပ် အရေဝ်ဘာသာ သဘာဝ (NLP) ကေုာံ ပညာ ဉာဏ်စက် (AI) ရ။

ဝှာင်:Multilingual word embedding visual.svg
ဥပမာ ဝါကျ တွဲဘာသာ (Parallel Sentences) ပ္ဍဲ တိုက်ဗှ်လိက် OPUS

တံင်ပရိုင် (Database) OPUS ဝွံ ညးမကၠောန်ဗဒှ်ဂှ် ဒှ် တၠပညာ သိပ္ပံ ခမ်ပျူတာ ဂျောက် တဳဒေမာန် (Jörg Tiedemann) နူကဵု တက္ကသိုလ် ဟေလ်သိလ်ကဳ (University of Helsinki) ရ။

ဗီုလဵု ဍေံ ကၠောန်ကမၠောန်? (How does it work?)

ပလေဝ်ဒါန်

OPUS ဝွံ ပကောံ တင်ဂၞင် (Data) နူကဵု တံင်ပရိုင် မသ္ကုင္ၚုဟ်မး နာနာ မပ္တံကဵု-

  • ပြကိုဟ်ဘာသာ (ဥပမာ - လိက်သမ္မာ)
  • လိက်လလောင်တရး သၞောဝ်ဥပဒေ (ဥပမာ - နူ သဟဖာတ် ဥရဝ်ပ - EU)
  • လိက်စၞောန်ပညုင် သာပ်ဝဴ (ဥပမာ - OpenOffice, KDE)
  • လိက်သၟဝ် ရုပ်ဒပ် (Movie Subtitles - OpenSubtitles)
  • လိက်ဟီု TED Talks ကေုာံ လိက်ပရိုင်ဂမၠိုင်

တင်ဂၞင်တအ်ဂှ် ဍေံတအ် စကာ အဝ်ဂဝ်ရဳတာမ် (Algorithms) သွက်ဂွံ ပါ်ကရေက် ဝါကျ (Sentence segmentation) တုဲ တွဲစုင် ဝါကျဘာသာမွဲ ကု ဝါကျဘာသာမွဲ (Sentence alignment) ညံင်ဂွံ ဒှ် ဝါကျတွဲဘာသာ (Parallel sentences) ရ။

ကိစ္စဇၞော် (Importance)

ပလေဝ်ဒါန်

တိုက်ဗှ်လိက် တွဲဘာသာဏအ်ဝွံ ကိစ္စဇၞော် ဗွဲမန် သွက်ဂွံ လ္ၚတ်ကတ်ေ (Train) ဉာဏ်စက် ညံင်ဂွံ ကၠိုဟ် စက်ကၠာဲဘာသာ (Machine Translation ဗီုကဵု Google Translate) မာန်ရ။ ယဝ်ရ တိုက်ဗှ်လိက် OPUS မၞုံကဵု တင်ဂၞင် လိက်မန် ဂၠိုင်ဂၠေင်မ္ဂး ဉာဏ်စက်တအ် ကၠိုဟ် အရေဝ်မန် ပြဟ်ပြဟ်ရ။

ဗၞတ်ဗ္စ (Scale)

ပလေဝ်ဒါန်

အတိုင် တင်ဂၞင် v2024 မ္ဂး OPUS နွံကဵု:

  • ၁,၂၁၄ တိုက်ဗှ်လိက်သၟတ်။
  • ကံက်ကေတ် အရေဝ်ဘာသာ ဗွဲမဂၠိုင်ဂၠေင် (၁၀၀၅ ဘာသာ)။
  • ဝါကျ တွဲဘာသာ ကိုတ် ကဵု ကိုတ် (Billions of sentence pairs)။

ဆက်ဗှ်လ္ၚတ်

ပလေဝ်ဒါန်
ကလေင်ကေတ်လဝ် နူ "https://mnw.wikipedia.org/w/index.php?title=OPUS&oldid=52669"