Character Set, Character Encoding ve Character Reference Nedir

a. Character Sets Nedir?

Karakterlere karşılık teorik, soyut sayılar eşleşmesinin yapıldığı karakterler kümesine character set (charset) adı verilir.

Örneğin "Unicode (Universal Character Set)" karakterlerin benzersiz decimal sayılarla ifade edildiği karakterler setine denir. Mesela A = 65, B = 66, C = 67 ,... olarak karakter setinde yer alır. Bu şekilde örneğin “hello” string'i Unicode karakter setinde

104 101 108 108 111

 h   e   l   l   o

ile karşılık görür. Unicode tüm dünyada kullanılmakta olan hemen hemen her bir harfi içeren karakter setine bir örnektir.

ASCII, internet tarihindeki ilk karakter seti standardıdır. Bu karakter seti tam olarak 128 farklı alphanumeric karakter tanımlar: Numbers (0-9), English Letters (A-Z) ve special Characters (örn; !$+-()@<>).

ANSI (Windows-1252) Windows tarihindeki ilk karakter setidir. Tam olarak 256 farklı karakter tanımlar.

ISO-8859-1 (Latin-1) HTML 4 için ilk default karakter setidir. İngiliz alfabesi dışında "i", "ü", "ç",... gibi karakterleri de içerir. Tam olarak 256 farklı karakter tanımlar.

b. Character Encodings

Karakter setlerindeki harflerin karşılık geldiği teorik, soyut sayıların binary olarak nasıl tutulacağı yönündeki tekniğe / yönteme character encoding adı verilir.

Character Encoding karakterleri benzersiz binary sayılarla ifade eder. Örneğin UTF-8, UTF-16, UTF-32, ... birer character encoding'tirler.

c. "Character Sets" vs. "Character Encodings"

İnternetteki ilk karakter seti olan ASCII karakter seti icat edildiğinde ve sonrasında charset ve character encoding arasında bir fark bulunmamaktaydı. İki kavram da aynı şeyi ifade ediyordu. Her ikisi de karakterlerin nasıl binary olarak tutulacağını ifade ediyordu. Fakat Unicode charset’i icad edildikten sonra arada bir fark oluştu. Unicode charset’inin icadı ile karakterlerin binary halde tutulması 2 adımdan oluşur hale geldi. Bu adımlar;

Karakterler ve karşılık geldikleri teorik, soyut sayılar
Karakterlerin karşılık geldikleri teorik, soyut sayıların binary olarak nasıl tutulacağı

şeklindendir.

Örnek vermek gerekirse € karakteri karakter setlerinde bir teorik, soyut sayı karşılığına (code point sayısına) sahiptir ve bu teorik, soyut sayı da farklı encoding yöntemleri ile farklı farklı binary’ler halinde somut olarak tutulmaktadır.

Yani € karakteri Unicode karakter setinde varmış ve UTF-8 ile encode’landığında farklı, UTF-16LE ile encode’landığında farklı binary’ler halinde tutulmaktaymış veya € karakteri ISO-8859-1 karakter setinde yer almamaktaymış ve bu nedenle bu karakter setinde herhangi bir teorik, soyut sayı karşılığına sahip değilmiş.

Sonuç olarak karakter setleri (charset’ler) karakterlerin bilgisayarda hangi teorik / soyut sayısal değerlerle depolanacağını belirler. Character Encoding'ler ise karakterlerin bilgisayarda hangi binary değerlerle depolanacağını belirler. Dolayısıyla ASCII bir karakter setidir ve karakterlerin hangi decimal değerlerle bilgisayarda depolanacağını tanımlar. UTF-8 ise bir character encoding’tir ve karakterlerin hangi binary değerlerle bilgisayarda depolanacağını tanımlar.

Character Set ve Encodings Üzerine

Charset ve character encoding kavramları önceleri aynı, sonradan farklı anlamlar ifade eder olduklarından dolayı günümüzde internet dili html tasarlanırken tasarımda eski ifade kalmıştır ve günümüze kadar gelmiştir.

// HTML 4'de charset belirleme
<meta http-equiv="Content-Type" content="text/html; charset="utf-8">

// HTML5'de charset belirleme
<meta charset="UTF-8">

// Includekarabuk 'deki <meta etiketi
<meta http-equiv="Content-Type" content="text/html; charset="utf-8">

Bu html ifadelerdeki utf-8 bir charset değildir. Bir character encoding’tir. Fakat html sayfalarda character encoding’i belirtirken charset keyword’ü halen kullanılmaktadır.

Character Encoding ve Encryption Üzerine

Encoding, karakterlerin binary olarak 0 ve 1’ler ile nasıl depolanacağını belirler.

Encoding = characters -> binary

Encryption, karakterlerin binary olarak 0 ve 1’ler ile depolanması sonrası bu 0 ve 1’lerin nasıl başka 0 ve 1’lere dönüştürüleceğini belirler.

Encryption = understandable binary -> unintelligible binary

	      ( anlaşılır binary )    ( anlaşılmaz binary )

Encoding ile oluşan kaynak 0 ve 1’ler başkalarınca anlaşılabilir. Dışarıdan bu 0 ve 1’lerin korunması ve anlaşılamaması amacıyla encryption kullanılır.

Not:

Encryption framework’ler bazen hem encoding hem encryption arka arkaya uygulayabilmektedirler. Bu ise bu iki kavramın birbirine karışmasına neden olabilmektedir. Fakat bu iki kavram ayrı iş yapmaktadırlar.

d. Character Reference

Karakter referansı Unicode karakter setlerindeki karakterleri referans yoluyla çağırmamızı sağlayan kodlamalardır. HTML'deki numerik “karakter referans”ları Unicode (Universal Character Set) 'daki karşılık gelen bir karakteri gösterirler. Numerik karakter referanslarının formatı şu şekildedir:

&#nnnn;

ya da

&#xhhhh;

nnnn olan format decimal form'dur. hhhh olan ise hexadecimal form'dur. nnnn ve hhhh herhangi bir sayı alabilir. Karakter referansı mevcut karakter setinde tanımlı karakterleri örneğin html dökümanına referans yoluyla dahil edebilmemizi sağlar. Mesela Türkçe klavye kullanan bir kimse klavyesinden matematiksel sembolleri normal şartlarda çıkaramaz. Çünkü karakter setinde tanımlı o matematiksel sembolleri klavyeden çıkarmak uzun ve karmaşık tuş kombinasyonları gerektirir. Bu komplike yöntem yerine ilgili karakterin karakter referansı kullanılabilir ve istenilen semboller böylece ekrana verilebilir. Aşağıda bir html dökümanına klavyeden girilebilmesi mümkün olan karakterlerin “karakter referansları” verilmiştir:

Örneğin A karakteri ASCII karakter setinde 65 decimal sayısıyla ifade edilmekteydi. Bu karakter setindeki A karakterini referans yoluyla çağırmak için

A decimal referansı ya da A hexadecimal referansı kullanılabilir.

/var/www/characterReferenceSample2.html

A ve A

Çıktı:

Böylece karakter referansları ile biz karakter setinde tanımlı karakterleri html dökümanına ekleyebiliriz.

Aşağıda ise karakter setinde yer alsa bile normal şartlarda klavyeden çıkarılamayacak bir matematiksel sembolün karakter referansı gösterilmiştir:

Karakter setindeki Σ sembolünü referans yoluyla çağırmak için Σ decimal referansı ya da Σ hexadecimal referansı kullanılabilir.

/var/www/characterReferenceSample.html

Σ ve Σ

Çıktı:

Character Reference'ı yanında bir de Character Entity Reference'ı vardır. Character Reference'ları decimal ya da hexadecimal sayıları kullanarak karakter setindeki bir karakteri göstermeye yararken “Character Entity Reference”ları ise isim kullanarak karakter setindeki bir karakteri göstermeye yarar. Örneğin HTML'de öntanımlı entity'ler (> , " , & , … v.b.) ilgili karakterleri gösterirken DTD'de öntanımlı entity'ler ve ayrıca explicitly olarak kendi tanımladığımız entity'ler ilgili karakterleri gösterir. Character entity referanslarının formatı şu şekildedir.

&name;

Yararlanılan Kaynaklar

https://www.w3schools.com/html/html_charset.asp
https://www.w3schools.com/charsets/ref_html_utf8.asp
https://stackoverflow.com/questions/2281646/whats-the-difference-between-encoding-and-charset
https://tr.wikipedia.org/wiki/Unicode
https://medium.com/@joffrey.bion/charset-encoding-encryption-same-thing-6242c3f9da0c

Bu yazı 19.08.2024 tarihinde, saat 13:34:27'de yazılmıştır. 19.08.2024 tarihi ve 14:03:56 saatinde ise güncellenmiştir.

Yazar : Hasan Fatih ŞİMŞEK

Görüntülenme Sayısı : 26

Yorumlar

Henüz yorum girilmemiştir.

Yorum Ekle

	#Kategoriler
	->	Genel
	->	Webgoat Uygulaması
	->	DVWA Uygulaması
	->	Çeşitli Sızma Teknikleri
	->	Güvenlik Araçları
	->	Linux Temelleri
	->	Genel Kültür (Siber Güvenlik)

#Popüler Yazılar
	->	Faz Açısını Hesaplama
	->	Hub, Switch, Router, Modem, Gateway ve Access Point Farkları
	->	Ders 12 - Ajax Security > DOM-Based cross-site scripting
	->	GET ile POST Arasındaki Fark
	->	BGA Sınav Soruları 2016

#En Son Yazılar
	->	Crypto 101 - Notlarım
	->	Vulnerability Scanner'ların Çalışma Mantığı
	->	Stagefright Virüsü Nedir
	->	Sosyal Mühendislik Saldırı Türleri
	->	Sisteminizi Shell'lerden Korumanın Yöntemleri

#Arşiv
	► 2014 ► Ekim (1) • Blog Maceram Başlar ► Kasım (7) • Parazit ve Gürültü Arasındaki Fark Nedir? • Stack ve Heap Arasındaki Fark • Sinyal Denkleminin Anlamı • Periyot ve Frekans Nedir? • Faz Açısını Hesaplama • Üniversite Öğrencilerinin Sağlık Aktivasyonu • Nesne Yönelimli Programlama Nedir ► Aralık (3) • Skype'ta Birbirimizin Sesini Nasıl Duyuyoruz? • Hub, Switch, Router, Modem, Gateway ve Access Point Farkları • Askerlikle İlgili Sorular ► 2015 ► Ocak (1) • Dev Firmaların Mülakatlarda Sorduğu 15 Çetin Soru ► Şubat (4) • Yapay Zeka İnsanı Geçemez • Webgoat Nedir? • Ubuntu 14.04 LTS Linux'a Webgoat Kurulumu • Windows'a Webgoat Kurulumu ► Mart (1) • Ders 1 - Introduction(Giriş) ► Nisan (3) • Ders 2 - General > Http Basics • Ders 3 - General > Http Split • Ders 4 - Access Control Flaws > Using an Access Control Matrix ► Mayıs (7) • Ders 5 - Access Control Flaws > Bypass a Path Based Access Control Scheme • Ders 6 - Role Based Access Control > Stage 1 • Ders 7 - Role Based Access Control > Stage 2 • Ders 8 - Role Based Access Control > Stage 3 • Ders 9 - Role Based Access Control > Stage 4 • Ders 10 - Access Control Flaws > Remote Admin Access • Ders 11 - Ajax Security > Same Origin Policy Protection ► Haziran (4) • Ders 12 - Ajax Security > DOM-Based cross-site scripting • Ders 13 - Ajax Security > Client Side Filtering • GET ile POST Arasındaki Fark • Ders 14 - Ajax Security > DOM Injection ► Temmuz (7) • Ders 15 - Ajax Security > XML Injection • Ders 16 - Ajax Security > JSON Injection • Ders 17 - Ajax Security > Silent Transactions Attacks • UML Sınıf Diyagramları • UML Sınıf Diyagramı İlişkileri • Association vs. Aggregation vs. Composition • Ders 18 - Ajax Security > Dangerous Use of Eval ► Ağustos (2) • Ders 19 - Ajax Security > Insecure Client Storage • Ders 20 - Authentication Flaws > Password Strength ► Eylül (11) • Ders 21 - Authentication Flaws > Forgot Password • Ders 22 - Authentication Flaws > Basic Authentication • Ders 23 - Authentication Flaws > Multi Level Login 1 • Ders 24 - Authentication Flaws > Multi Level Login 2 • Ders 25 - Buffer Overflows > Off-by-One Overflows • Ders 26 - Code Quality > Discover Clues in the HTML • Ders 27 - Concurrency > Thread Safety Problems • Ders 28 - Concurrency > Shopping Cart Concurrency Flaw • Ders 29 - Cross-Site Scripting (XSS) > Phishing with XSS • Ders 30 - Cross-Site Scripting (XSS) > Stage 1: Stored XSS • Ders 31 - Cross-Site Scripting > Stage 2: Block Stored XSS using Input Validation ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2016 ► Ocak (27) • DVWA Nedir? • Windows'a DVWA Kurulumu • Ubuntu 14.04 LTS Linux'a DVWA Kurulumu • Ders 1 - DVWA'ya Giriş • Ders 2 - Brute Force (Low Level) • Ders 3 - Brute Force (Medium Level) • Ders 4 - Command Injection (Low Level) • Ders 5 - Command Injection (Medium Level) • Ders 6 - Command Injection (High Level) • Ders 7 - Cross Site Request Forgery (Low Level) • Ders 8 - File Inclusion (Low Level) • Ders 9 - File Inclusion (Medium Level) • Ders 10 - File Inclusion (High Level) • Ders 11 - File Upload (Low Level) • Ders 12 - File Upload (Medium Level) • Ders 13 - File Upload (High Level) • Ders 14 - SQL Injection (Low Level) • Ders 15 - SQL Injection (Low Level) II • Ders 16 - SQL Injection (Medium Level) • Ders 17 - Blind SQL Injection (Low Level) • BGA Sınav Soruları 2016 • Ders 18 - Blind SQL Injection (Medium Level) • Ders 19 - Reflected XSS (Low Level) • Ders 20 - Reflected XSS (Medium Level) • Ders 21 - Reflected XSS (High Level) • Ders 22 - Stored XSS (Low Level) • Ders 23 - Stored XSS (Medium Level) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (0) ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2017 ► Ocak (0) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (0) ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2018 ► Ocak (0) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (0) ► Eylül (1) • Ve Blog'a Döndüm ► Ekim (0) ► Kasım (6) • Metasploit Framework'e Giriş • Metasploit ile Bir Sızma Uygulaması (ms08-067) • Metasploit Saldırı Aşamaları (Özet) • Metasploit Komutları • Metasploit Detay Bilgiler • Metasploit Detay Bilgiler (Özet) ► Aralık (0) ► 2019 ► Ocak (0) ► Şubat (0) ► Mart (2) • Arp Spoofing Saldırısı Nedir ve Nasıl Yapılır • Arp Spoofing İlave Uygulamalar ► Nisan (0) ► Mayıs (0) ► Haziran (1) • Oyun Motoru Nedir ► Temmuz (1) • Haberleşme Teknolojisi ► Ağustos (0) ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2020 ► Ocak (1) • Siber Güvenlikte Düşük Seviye Açıklık Nedir ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (0) ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2021 ► Ocak (0) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (0) ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2022 ► Ocak (0) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (1) • Apache Web Sunucuyu Yurt Dışı (Türkiye Dışı) Trafiğe Kapama ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ► 2023 ► Ocak (0) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (0) ► Eylül (0) ► Ekim (0) ► Kasım (0) ► Aralık (0) ▼ 2024 ► Ocak (0) ► Şubat (0) ► Mart (0) ► Nisan (0) ► Mayıs (0) ► Haziran (0) ► Temmuz (0) ► Ağustos (19) • APT Saldırısı Nedir • Bug vs Vulnerability • CAPEC Nedir ve Kullanımı • CTF Nedir • CVE Nedir ve Kullanımı • CWE vs CVE • Character Set, Character Encoding ve Character Reference Nedir • Exploit Arama Yöntemi • Framework Nedir • Mirai Zararlısı Nedir • Paypal ve Güvenlik • RAT Nedir • Ransomware Nedir • Bir Siteye Shell Atmanın 20 Temel Yöntemi • Sisteminizi Shell'lerden Korumanın Yöntemleri • Sosyal Mühendislik Saldırı Türleri • Stagefright Virüsü Nedir • Vulnerability Scanner'ların Çalışma Mantığı • Crypto 101 - Notlarım

#Giriş

	ID	:
	Şifre	: