Tatanan, Colleges lan universities
Apa Corpus Linguistics?
Mung sawetara dekade ago otomatis riset linguistik, ilmuwan mung bisa ngimpi. karya iki rampung dening tangan, iku nengsemake nomer akeh mahasiswa, ana substansial tentrem "careless" kesalahane, lan sing paling Jahwéh - kabeh iki njupuk dawa, dangu.
Kanthi perkembangan teknologi komputer wis dadi bisa tumindak riset ing urutan gedhene luwih cepet, lan dina iki salah siji saka pituduh kang paling ing sinau basa punika basa corpus. fitur utama yaiku nggunakake gedhe Jumlah saka informasi teks, informasi menyang database siji, ing cara khusus lan diarani awak ditandhani.
Kanggo tanggal, ana akeh bangunan digawe karo macem-macem tujuan ing basis saka macem-macem bahan linguistik pepak, wiwit saka mayuta-yuta kanggo puluhan milyar Unit paromosastro. arah dikenali minangka janjeni lan nduduhake wujud proses menyang tujuan aplikasi lan riset. Experts, salah siji cara utawa dealing liyane karo basa alam, kang dianjurake kanggo njaluk kenalan karo awak saka teks ing paling ing tingkat dhasar.
History of corpus Linguistics
Ing tatanan gaya iki amarga nitahaken saka Amerika Serikat ing awak Brown ing awal 60-ies saka abad suwene. koleksi kalebu teks kabeh 1 yuta formulir tembung, lan dina iki awak saka ukuran iki bakal babar blas uncompetitive. Iki utamané amarga laju perkembangan teknologi komputer, uga panjaluk akeh kanggo sumber riset.
Ing 90s Linguistics corpus metu menyang disiplin lengkap lan sawijining, koleksi teks wis digambar munggah lan ditandhani kanggo akeh basa. Ing wektu iki iku digawe, contone, ing British National Corpus 100 yuta token.
Kanthi perkembangan wilayah iki linguistik, volume teks sing dadi liyane lan liyane (lan tekan milyaran Unit kamus), lan tata letak dadi luwih warna. Kanggo tanggal, papan Internet bisa ditemokaké carcasses ditulis lan ngandika basa, basa, lan sastra seni utawa akademisi learning-oriented, uga akèh spesies liyané.
Apa sing omah
jinis awak ing basa awak uga kasedhiya kanggo sawetara alasan. Intuitively, ing basis kanggo klasifikasi bisa dadi basa teks (Russian, Jerman), ing mode akses (open source, ditutup, komersial), genre saka materi sumber (fiction, dokumen, akademisi, jurnalisme).
cara menarik ngasilake bahan saka basa. Wiwit ngrekam disengojo wicara kuwi nggawe lingkungan Ponggawa kanggo penjawab, lan materi asil ora bisa disebut "spontan", linguistik corpus modern wis musna cara liyane. A volunteer dilengkapi mikropon, lan sak dina diprodhuksi rekaman kabeh obrolan, kang berpartisipasi. Wong sak, mesthi, uga ora ngerti sing ing Course obrolan saben dinten nyumbang kanggo pangembangan ilmu.
Sawisé olèh rekaman disimpen ing database lan diiringi dicithak jinis transcript teks. Mangkono, iku dadi bisa markup needed kanggo nggawe omah wicara dina lisan.
aplikasi
Ngendi wae bisa nggunakake basa, lan mbok menawa sing nggunakake bangunan teks. Cara kanggo aplikasi awake ing linguistik uga:
- Nggawe program nentokake tombol, wis digunakake digunakake ing politik lan bisnis kanggo nglacak respon positif lan negatif Pamilih lan pelanggan, mungguh.
- Sambungan sistem informasi kanggo dictionaries profesional kanggo nambah kinerja.
- A macem-macem tugas riset sing kontribusi kanggo pangerten saka unit basa, sajarah saka sawijining pembangunan lan paramalan owahan ing mangsa cedhak.
- Pangembangan sistem jupuk informasi adhedhasar morfologi, syntactic, semantik lan liyane fitur.
- Optimization saka sistem linguistik beda lan liya-liyane.
Panganggone bangunan
antarmuka sumber padha karo search engine khas, lan supaya pangguna kanggo ngetik tembung utawa kombinasi saka tembung kanggo nggoleki basa resmi. Loro mbentuk query pas bisa nggunakake versi meningkat, sing ngijini kanggo golek Tèks ing sakbenere sembarang kritéria linguistik.
basa panelusuran mungkin dadi:
- anggota saka klompok tartamtu saka bagean wicara;
- fitur grammatical;
- semantik;
- stylistic lan emosi maringi warno.
Sampeyan uga bisa gabungke kriteria panelusuran kanggo urutan tembung, contone, kanggo nemokake asil saka tembung ing saiki tegang, wong pisanan tunggal, kang rawuh sawise ancer-ancer "ing" lan tembung ing kasus akusatif. Solusi kanggo tugas prasaja njupuk pangguna sawetara detik lan mbutuhake mung sawetara klik mouse ing kothak kasebut.
Proses nggawe
Panelusuran dhewe bisa digawa metu ing kabeh subcorpus lan siji khusus milih, gumantung kabutuhan ing nampa goal tartamtu:
- Langkah kapisan kanggo netepake kang teks mbentuk basis kanggo kasus. Kanggo tujuan praktis, iku kerep digunakake jurnalistik, warta, Komentar online. Ning proyek penelitian iku nggunakake macem-macem jinis paket, nanging teks kudu dipilih miturut sawetara umum lemah.
- koleksi asil saka teks nelukake pretreatment, ana koreksi kasalahan, yen, disiapake dening gambaran bibliographic lan ekstra-linguistik teks.
- Wis ngilangi kabeh informasi non-kacetak: Ngilangi grafis, gambar, tabel.
- Iku sawijining persediaan token, kang biasane wicara, kanggo luwih Processing.
- Akhire, iku digawa morfologi, syntactical lan tondho liyane dijupuk majemuk saka unsur.
Asil kabeh transaksi digawe dening struktur syntactic karo disebarake ing kono majemuk saka unsur, saben kang wis dikenali bagean wicara, grammatical lan, ing sawetara kasus, kawicaksanan semantik.
Kangelan nggawe bangunan
Iku penting kanggo ngerti sing ora cukup kanggo sijine bebarengan pesawat saka tembung utawa ukara kanggo awak. Ing tangan siji, koleksi teks sing arep imbang, sing, makili beda jinis teks ing takeran tartamtu. Ing liyane - isi pager kudu diwenehi jarak ing cara khusus.
Masalah kapisan ditanggulangi dening persetujuan: contone, ing koleksi kalebu 60% saka teks sastra, 20% saka dokumèntèr, a persentasi tartamtu diwenehi perwakilan ditulis saka basa, aturan, karya ilmiah, lan sapiturute resep sampurna imbang awak dina iki ora ana ...
Pitakonan sing liyane, bab tata isi, ngatasi tantangan. Ana program khusus lan kalkulus digunakake kanggo otomatis menehi teks, nanging padha ora menehi asil sampurna, bisa nimbulaké disruptions lan mbutuhake nulis ulang manual. Kesempatan lan tantangan ing dealing karo masalah iki sing diterangake ing rinci ing kertas V. P. Zaharova linguistik corpus.
markup Tèks implementasi ing saperangan tingkat, kang kita dhaptar ing ngisor iki.
tagging morfologi
Saka sekolah, titiang eling mungguing ing basa Rusia, ana bagian sing béda saka wicara, lan saben wong nduweni ciri dhewe. Contone, tembung wis kategori karep lan wektu ing kang ora tembung. native speaker tanpa mangu-mangu nolak nouns lan kriyo konjugat, nanging kanggo nandhani awak saka 100 yuta. token pegawe manual ora bisa. Kabeh operasi perlu bisa nglakokaké komputer, Nanging, iki perlu memulang.
Morfologi tagging, komputer kudu "ngerti" saben tembung minangka bagean tartamtu saka wicara gadhah fitur grammatical tartamtu. Wiwit Russian (lan basa liyane) makaryakke sawetara aturan biasa, iku bisa kanggo mbangun sawijining prosedur otomatis kanggo analisis morfologi, nandur modal ing mobil kanggo sawetara kalkulus. Nanging, ana seng kanggo aturan, uga macem-macem faktor complicating. Akibaté, analisis komputer net ing dina iki iku adoh saka becik, lan malah 4% kesalahan panenan nilai 4 mln. Liyane ing awak 100 yuta. Unit, mrintahake nulis ulang manual.
buku rinci describes masalah Zaharova V. P. "Corpus Linguistics".
cathetan syntactic
Parsing utawa parsing - prosedur sing nemtokake sesambetan ing tembung ing ukara. Nggunakake pesawat saka kalkulus bisa nemtokake teks saka subyek, predikat, tambahan, kaping dadi wicara. Mangerteni kang tembung sing urutan utama, lan kang - gumantung, kita bisa èfèktif extract informasi saka teks lan kanggo mulang mesin kanggo ngetokake nanggepi panjalukan search mung informasi menarik kita.
Miturut cara, mesin modern nggunakake kanggo menehi metu nomer tartamtu tinimbang teks dhowo kanggo nanggepi pitakon sing cocog kayata "carane akeh kalori ing apple" utawa "jarak saka Moscow kanggo St. Petersburg." Nanging, kanggo ngerti malah kerja proses diterangake dening perlu kanggo takon ing "Pambuka kanggo Corpus Linguistics" utawa tutorial dhasar.
markup semantik
The semantik saka tembung - iku, ing syarat-syarat prasaja, makna. pendekatan sing digunakake ditrapake kanggo analisis semantik saka tags tembung atribusi, nggambarake kang kagolong pesawat saka kategori semantik lan subkategori. katrangan terkenal kanggo optimalisasi kalkulus njelasno muni teks, summarization otomatis lan cara tugas liyane linguistik corpus.
Ana sawetara "ROOT" saka wit, nuduhake tembung abstrak karo semantik banget sudhut. Minangka sawijining cabang saka kelenjar wit sing kawangun, ngemot liyane lan liyane tartamtu unsur paromosastro. Contone, tembung "titah" uga digandhengake karo konsep kayata "manungsa" lan "kewan". Tembung kapisan bakal terus kanggo cabang metu menyang profesi beda, istilah kekerabatan, warga negara, lan liya - ing kelas lan jinis kéwan.
Panggunaan sistem jupuk informasi
Wilayah kang nggunakake basa corpus nutupi warna kothak kegiatan. Housings digunakake kanggo preparation lan koreksi dictionaries, nggawe sistem terjemahan otomatis, annotating, nampa kanyatan, nentokake muni lan Processing teks liyane.
Kajaba iku, sumber daya kuwi aktif digunakake ing studi basa donya lan mekanisme saka fungsi saka basa ing umum. Akses kanggo volume gedhe saka informasi wis disiapake fasilitas sinau kanthi cepet lan lengkap tren saka basa pembangunan, lan owah-owahan tatanan neologisms stabil kacepetan wicara angka Unit paromosastro lan liyane.
Wiwit karya karo gedhe Jumlah kuwi data mbutuhake automation, dina iki ana interaksi cedhak antarane komputer lan corpus Linguistics.
Russian National Corpus
cilik iki (disingkat NKRYA) kalebu sawetara subcorpus, saéngga nggunakake sumber kanggo macem-macem saka sudhut tugas.
Bahan ing database sing dipérang NKRYA:
- kanggo publikasi ing 90s lan 2000-an ing media ', loro domestik lan manca;
- ngrekam wicara;
- aktsentologicheski ditandhani teks (i.e., tandha saka kaku);
- wicara dialect;
- puisi
- Bahan karo syntactic lan liyane tondho.
Sistem informasi uga kalebu Subcorpus karo jarwan podo karya saka Rusian menyang Inggris, Jerman, Prancis lan basa-basa liyané (lan kosok balene).
Uga ing database ana bagean saka teks-teks sejarah, makili wicara ditulis ing Rusia ing wektu sing beda-beda saka sawijining pembangunan. Ana uga awak latihan, kang bisa migunani kanggo warga manca ing nguwasani basa Rusia.
Russian National Corpus dumadi 400 yuta unit paromosastro, lan ing akeh cara ahead saka bagean pinunjul saka basa saka badan Eropah.
prospek
Fact ing sih saka pangenalan saka gaya iki kasedhiyan janji laboratorium Linguistics corpus ing universitas Russian, uga manca. Kanthi nggunakake lan riset ing framework saka informasi lan search iki sumber entails pangembangan wilayah tartamtu ing lapangan teknologi dhuwur, sistem Pitakonan-njawab, nanging wis rembugan ndhuwur.
pembangunan luwih saka corpus Linguistics mbadek ing kabeh tingkat, kiro-kiro saka technical lan ing syarat-syarat implementasine saka kalkulus anyar sing ngoptimalake pangolahan nggoleki lan proses informasi, kapriye komputer, luwih RAM, lan kanggo konsumen, amarga kedhaftar liyane lan liyane cara kanggo nggunakake jinis sumber ing dina sing urip lan karya.
Wusananipun
Ing tengah abad pungkasan ing 2017 ketoke mangsa adoh, ngendi spaceships lelungan liwat Semesta lan robot apa kabeh karya kanggo wong. Ing kasunyatan, ilmu ngisi karo "putih panggonan" lan nggawe usaha nekat kanggo njawab pitakonan saka manungsa kanggo abad gangguan. Pitakonan fungsi saka basa kene ngisi papan kang tentrem, lan kabinet lan komputasional Linguistics bisa bantuan kita njawab mau.
Processing saka mranata data gedhe bisa ndeteksi pola, sadurunge bisa diliwati, prédhiksi pangembangan fitur basa tartamtu kanggo trek tatanan saka tembung ing meh wektu nyata.
Ing tingkat praktis, enclosures global bisa katon, contone, minangka alat potensial kanggo netepke swasana ati umum - Internet punika saya dianyari saben dina basis macem-macem teks digawe dening pangguna nyata: iki komentar lan reviews, lan artikel, lan akeh wangun liya saka wicara.
Kajaba iku, apa karo badan nyumbang kanggo pangembangan hardware padha, sing melu jupuk informasi, kita sing menowo layanan "Google" utawa "Yandex", terjemahan mesin, dictionaries elektronik.
We dhiri bisa njaluk yen corpus Linguistics ndadekake mung langkah pisanan, lan ing mangsa cedhak bakal ngrembaka.
Similar articles
Trending Now