Common Voice - ирекле һәм ачык сөйләм корпусын булдыру максатыннан Mozilla тарафыннан башлап җибәрелгән краудсорсинг проекты. Проект микрофон ярдәмендә үрнәк җөмләләрне укып яздыручы һәм башка кулланучыларның язмаларын тикшерүче волонтерлар тарафыннан хуплана. Транскрипцияләнгән җөмләләр CC0 иҗтимагый милек лицензиясе нигезендә кулланырга мөмкин булган тавыш мәгълүматлары базасында җыела.[1] Бу лицензия программистларга мәгълүмат базасын «тавыштан текстка» һәм «тексттан тавышка» кушымталар өчен бернинди чикләүләрсез һәм түләүләрсез куллана алуын тәэмин итә.

Common Voice
Эшләүче

Mozilla Foundation

Интерфейс телләре

Күптелле (Телләр исемлеге)

Лицензия

Creative Commons CC0

Сайт

commonvoice.mozilla.org/tt

Максатлар

үзгәртү

Common Voice төрле тавыш үрнәкләрен тәкъдим итүне максат итеп куя. Mozilla вәкиле Катарина Борхерт сүзләренчә, гамәлдә булган күп кенә проектлар мәгълүматлар җыелмаларын иҗтимагый радиолардан алган, яисә бу җыелмаларда хатын-кызлар да, ачык сизелеп торган акцент белән сөйләшүче кешеләр дә тиешенчә күрсәтелмәгән.[2]

Тавышлар базасы

үзгәртү

Беренче мәгълүматлар җыелмасы 2017 елның ноябрендә чыгарылды. Бөтен дөнья буенча 20 000нән артык кулланучы инглиз телендә 500 сәгатьлек җөмләләр яздырган.[3]

Татар телендәге мәгълүмат җыелмасын туплау 2018 елның августында башланды.[4]

Сылтамалар

үзгәртү
  1. Mozilla Data Collective (ru). mozilladatacollective.com. 2026-04-23 тикшерелгән.
  2. Why do we gender AI? Voice tech firms move to be more inclusive, The Guardian (11 гыйнвар 2020). 19 апрель 2020 тикшерелде.
  3. Announcing the Initial Release of Mozilla's Open Source Speech Recognition Model and Voice Dataset. blog mozilla.org (November 29, 2017). әлеге чыганактан November 29, 2017 архивланган. November 19, 2019 тикшерелгән.
  4. Интернетта "Common Voice" татарча сөйләм таныгычы проекты булдырылды (2018-08-13). {{subst:бүген}} тикшерелгән.