Виды кодировок – немного истории

Говоря о сложности самостоятельного подбора нужной кодировки в предыдущей статье, мы имели в виду невероятное множество разнообразных кодировок, существующих на сегодняшний день. В качестве примера можете открыть интернет-обозреватель Internet Explorer, выбрав в нем меню «Вид» -> «Кодировка». Среди всего списка, который вы сможете увидеть, только шесть типов кодировок поддерживают русский язык (кириллицу), это: UTF-8, ISO-8859-5, Windows-1251, KOI-8U, KOI-8R, а также русскоязычная кодировка Mac.

Логичный вопрос – почему их так много? Чтобы дать на него полноценный ответ, нужно вернуться к самому началу и вспомнить, чем по своей сути является кодировка. В первую очередь, это таблица символов, где каждому знаку и букве алфавита соответствует определенное числовое значение – код символа. Первая часть этой таблицы стандартизирована – в ней находятся 128 значений, включающих в себя буквы латинского алфавита. Во второй же ее половине находятся национальные символы.

Разумеется, в каждой отдельной стране вторая половина таблицы индивидуальна, то есть, один и тот же символ может соответствовать разному числовому коду. Именно поэтому при неправильном определении кодировки отображение текста будет искаженным. В нашем случае присутствует сразу шесть кодировок, в результате чего, существует высокая вероятность того, что где-то программист все-таки сможет допустить ошибку.

Появление обилия вариантов кодировок уходит далеко в историю. Наиболее популярная российская кодировка KOI-8 была разработана еще в семидесятых годах прошлого столетия – она создавалась с целью адаптации системы UNIX к русскому языку. Кстати, KOI-8 и по сей день является основной кодировкой в UNIX.

Появление персональных компьютеров поспособствовало зарождению системы DOS. В этой кодировке присутствовали символы, с помощью которых можно было создавать рамки – подобная функция оказалась достаточно востребованной в программах, создававшихся под DOS.

Параллельно этому развивались компьютеры Macintosh, которые также нуждались в русификации. В результате этого появилась очередная кодировка – MAC. При выходе успешной версии Windows, включавших в себя возможность поддержки национальных языков, зародилась новая кодировка Win, которая и получила наибольшее распространение в России.

Вскоре была попытка хоть как-то упростить происходящее, с этой целью даже была создана универсальная кодировка. Что из этого получилось, вы можете прочитать в третьей части статьи: кодировки – сложности распознания

 
   
 
© 2006 —  Студия «Наутико»
Создание сайтов, поддержка сайтов, реклама
Россия, Санкт-Петербург