Komputer, Programming

UTF-8 - karakter enkoding

Unicode ndhukung sakbenere kabeh mranata karakter ana. Wangun paling apik enkoding pesawat karakter Unicode iku UTF-8 enkoding. Nanging ndhukung kompatibilitas karo ASCII, resistance kanggo distorsi saka data, ing efficiency lan ease saka Processing. Nanging iku pisanan pisanan.

wangun werna

Komputer operate ora mung minangka nomer obyek abstrak matematika, sarta kombinasi Unit panyimpenan lan nangani telpon-ukuran data - bait lan 32-dicokot tembung. standar ngodhe kudu njupuk iki menyang akun nalika nentokake carane saiki nomer karakter.

Ing sistem komputer, angka disimpen ing sel memori saka 8 bit (1 bait), 16 utawa 32 bit. Saben wangun utawi enkoding Unicode, kang urutan saka sel memori lan ongko cocog kanggo simbol tartamtu. Ing standar ana telu macem-macem formulir saka werna karakter Unicode 8, 16 lan 32-dicokot pamblokiran. Patut, lagi dikenal minangka UTF-8, UTF-16 lan UTF-32. Jeneng UTF stands kanggo transformasi Format Unicode. Saben telung Wangun enkoding liya padha perwakilan karakter Unicode wis kaluwihan ing macem-macem aplikasi.

enkripsi data bisa digunakake kanggo makili kabeh karakter ing standar Unicode. Mangkono, lagi kanthi kompatibel kanggo solusi kanggo macem-macem alasan, nggunakake macem-macem formulir saka werna. Saben werna bisa ambigu diowahi menyang samubarang loro liyane tanpa mundhut saka data.

asas nenalozheniya

Saben enkoding formulir Unicode dikembangaké ing tampilan saka tumpang tindih non sebagean. Contone, Windows-932 formulir karakter siji utawa loro bita kode. Dawa urutan gumantung ing bait pisanan, supaya angka bait anjog ing seri saka loro-bait lan siji bait disjoint. Nanging, ing Nilai saka bait siji lan mburine urutan bait bisa pas. Iki tegese contone sing search karakter D (kode 44) bisa nemokake iku salah ngetik menyang bagean liya saka urutan loro-bait karakter "D" (kode 84 44). Kanggo mangerteni kang urutan bener, program ngirim njupuk menyang akun bita sadurungé.

Kahanan iku rumit, yen anjog lan mburine bita match. Iki tegese supaya mbusak mbingungake bakal Goleki mbalikke sadurunge sik njongko ing awal teks utawa urutan kode unik. Iki ora mung ora efisien, nanging wis ora dilindhungi saka bisa kasalahan, awit mung siji bait salah teks kebak wis dadi diwaca.

Format konversi Unicode ngindari masalah iki amarga Nilai saka anjog, mburine, lan unit siji saka panyimpenan ora informasi sing padha. Agawé kabeh Unicode kanggo nggoleki lan comparison, tau menehi asil Kléru amarga ketepakan beda bagean kode karakter. Kasunyatan sing formulir iki werna mirsani nenalozheniya asas, kaperang saka Asia encodings multi-bait East liyane.

Liyane aspek nonintersection encodings Unicode iku saben karakter iki wewatesan ditetepake cetha. Iki ngilangake sing perlu kanggo mindhai nomer mesthi simbol sadurungé. Fitur iki kadhangkala disebut enkoding poto-clocking. Distorsi saka Unit kode bakal introduce distorsi saka mung siji karakter, lan karakter lingkungan sing isih utuh. Ing konversi format 8-dicokot, yen pitunjuk nilai kanggo bait, miwiti karo 10xxxxxx (code binar) kanggo nggoleki wiwitan simbol dibutuhake siji telung arepe mbalikke.

konsistensi

Consortium Unicode kebak ndhukung kabeh 3 Wangun encodings. Penting ora kanggo nglawan UTF-8 lan Unicode, kabeh format konversi - merata formulir bener pawujudan saka Unicode karakter-enkoding standar.

Bait-orientasi

Kanggo makili UTF-32 karakter kudu unit kode 32-dicokot, sing bertepatan karo kode Unicode. UTF-16 - siji loro Unit 16-dicokot. A UTF-8 migunakake nganti 4 bita.

UTF-8 enkoding dirancang kanggo kompatibel karo sistem basis ASCII bait-oriented. Paling saka piranti lunak sing wis ana lan laku teknologi informasi kanggo dangu migunaaké perwakilan saka karakter ing urutan bita. Multiple protokol gumantung ing ngélingaken saka ASCII enkoding lan migunakake salah siji ngindari karakter kontrol khusus. A cara prasaja kanggo ngganti menyang kahanan Unicode bisa, nggunakake 8-dicokot werna kanggo makili karakter Unicode, sembarang karakter ASCII padha utawa karakter kontrol. Kanggo iki pungkasan, lan iku UTF-8 enkoding.

global dawa

UTF-8 - werna saka global dawa, dumadi saka Unit panyimpenan 8-dicokot, bit ndhuwur kang nunjukaké kanggo part kang urutan saka saben bait individu belongs. Salah sawetara nilai diundhi kanggo para unsur pisanan saka urutan kode, liyane - kanggo sabanjure. Iki menehi enkoding disjointness.

ASCII

kode ASCII UTF-8 enkoding wis kebak didhukung (0x00-0x7F). Iki tegese karakter Unicode U + 0000-U + 007F sing diowahi dadi siji bait 0x00-0x7F UTF-8 lan kanthi mangkono dadi dibedakno saka ASCII. Menapa malih, supaya mbingungake, Nilai 0x00-0x7F ora digunakake sembarang liyane ing bait perwakilan siji karakter Unicode. Kanggo encode simbol neideograficheskih liyane saka ASCII, nggunakake urutan loro bita. Simbol Range U + 0800-U + FFFF sing dituduhake dening telung bita, lan kode tambahan karo luwih saka U + FFFF mbutuhake papat bita.

bal saka aplikasi

UTF-8 enkoding biasane diwenehi pilihan ing protokol HTML, lan kaya.

XML wis dadi standar pisanan dukungan kebak kanggo UTF-8 enkoding. organisasi Standards uga nyaranake. masalah Support ing alamat URL sing beda saka ASCII-karakter, iki mantun nalika konsorsium W3C lan klompok engineering IETF teka persetujuan ing werna saka kabeh alamat URL istimewa ing UTF-8.

Kompatibilitas karo ASCII nggampangaké transisi kanggo piranti lunak anyar. Kanthi UTF-8 dianggo paling editors teks, kalebu JEdit, Emacs, BBEdit, Eclipse, lan "Notepad" sistem operasi Windows. Ora wangun liya saka enkoding Unicode ora bisa boast saka support kuwi alat.

werna kauntungan iku kasusun saka urutan bita. Kanthi UTF-8 senar iku gampang bisa ing C lan basa liyane program. Iki wangun mung enkoding, supaya ora mbutuhake label bita BOM utawa Pranyatan enkoding ing XML.

poto-sinkronisasi

Ing lingkungan sing migunakake simbol 8-dicokot saka Processing dibandhingake karo set karakter multi-bait liyane, UTF-8 wis kaluwihan ing ngisor iki:

Ing urutan kode bait pisanan ngandhut informasi bab sawijining dawa. Iki mundhak ing efficiency search langsung.
Japanese nemokake awal simbol minangka bait wiwitan diwatesi kanggo sawetara tetep nilai.
Ora angka persimpangan bait.

Bandingake keuntungan

UTF-8 enkoding iku kompak. Nanging nalika digunakake kanggo enkoding karakter ing Asia (Chinese, Japanese, Korean, nulis Chinese nggunakake pratandha) digunakake urutan 3-bait. Uga UTF-8 enkoding iku cendhek kanggo wangun liya saka werna Processing kacepetan. A garis ngurutake binar mrodhuksi asil sing padha minangka binar ngurutake Unicode.

Ing rencana karakter enkoding

Ing rencana karakter enkoding dumadi wangun simbol enkoding lan cara kanggo Unit kode lokasi siji bait. Kanggo nemtokake rencana enkoding Unicode standar mènèhi nggunakake supaya bait tandha dhisikan (BOM, Byte supaya tandha).

Nalika BOM ing UTF-8 tag fitur diwatesi mung dening referensi kanggo nggunakake formulir saka werna. Masalah ing nentokake endian UTF-8 duwe, minangka ukuran unit enkoding sawijining siji bait. Nggunakake BOM kanggo wangun iki werna wis ora dibutuhake utawa dianjurake. BOM uga dumadi ing teks kanggo diowahi saka codings liyane nggunakake tandha supaya bait utawa teken kanggo UTF-8 enkoding. Punika urutan 3 bytes EF BB ₁₆ ₁₆ BF _16.

Carane nyetel UTF-8 enkoding

The HTML werna UTF-8 wis diinstal nganggo kode ing ngisor iki:

Lowongan

Meta http-equiv = "Content-Type" isi = "text / html; charset = utf-8" ˃

Ing PHP UTF-8 enkoding disetel nggunakake header () fungsi ing awal file sawise nyetel kesalahan Nilai tingkat output:

˂? Php

error_reporting (-1);

header ( "Content-Type: teks / html; charset = utf-8 ');

Nyambung menyang database MySQL UTF-8 enkoding disetel:

˂? Php

mysql_set_charset ( 'utf8');

CSS-file enkoding punika karakter UTF-8 kasebut minangka nderek:

@charset "utf-8";

Nalika nyimpen file kabeh jinis milih UTF-8 enkoding tanpa BOM, digunakake ing situs iki ora bakal bisa. Kanggo nindakake iki ing DreamWeave kudu milih item menu "Modifikasi - Page Properties - Title / ngodhe" kanggo ngganti enkoding kanggo UTF-8. Ngiring dening koco, mbusak tandha mriksa saka "Sambung Unicode teken (BOM)» lan aplikasi owah-owahan. Yen teks ing kaca utawa ing database dipuntepangaken wangun liya saka werna, iku perlu ngetik maneh utawa re-encode. Nalika sampeyan bisa karo biasa ungkapan, dadi manawa kanggo nggunakake tambahan ing u.

Sampeyan uga bisa nyimpen file ing UTF-8 enkoding ing "Notepad" Windows. Sawise milih item menu "Gambar - Simpen Minangka ..." kanggo nginstal wangun perlu saka enkoding lan nyimpen file ing UTF-8.

Ing teks editor Notepad ++, yen nyetel liyane saka UTF-8, liwat item menu "Convert kanggo UTF-8 tanpa BOM» ngganti karakter lan nyimpen ing UTF-8.

ora ana alternatif

Ing babak saka globalisasi, ngendi, wates negara lan linguistik sing dibusak, karakter mranata sing duwe ciri lokal, sing saka sethitik nggunakake. Unicode iku pesawat karakter siji sing ndhukung kabeh localizations. A UTF-8 - conto implementasine suwene Unicode, kang:

Nanging ndhukung sawetara saka sudhut pribadi, kalebu kompatibilitas karo ASCII enkoding;
Iku tahan kanggo data distorsi;
prasaja lan efektif ing perawatan;
punika platform sawijining.

Kanthi tekane saka UTF-8 debat babagan apa wujud saka enkoding utawa bosone luwih, dadi guna.

Komputer, Programming

UTF-8 - karakter enkoding

wangun werna

asas nenalozheniya

konsistensi

Bait-orientasi

global dawa

ASCII

bal saka aplikasi

poto-sinkronisasi

Bandingake keuntungan

Ing rencana karakter enkoding

Carane nyetel UTF-8 enkoding

ora ana alternatif

Similar articles

Komputer

Komputer

Komputer

Komputer

Komputer

Komputer

Trending Now

Kaendahan

Kesehatan

Pembangunan intellectual

Kesehatan

Cars

Homeliness

Newest

Homeliness

Kesehatan

Arts lan Hiburan

Bisnis

Komputer

Teknologi