Юникод
Юникод (Unicode, UTF-8) — стандарт кодирования символов, позволяющий представлять знаки практически всех письменных языков мира. Нынче стал фактически единственным стандартом всира текстов, особенно в интернетах.
Описание[править]
Стандарт Юникод решает проблему несовместимости различных национальных кодировок, таких как ASCII, KOI8-R, Windows-1251 и множество других, которые ограничивали представление текста одним или несколькими языками.
В 1991 году был основан Консорциум Юникода, а первая версия стандарта вышла в октябре и содержала 7161 символ.
С версии Unicode 2.0 два стандарта полностью синхронизированы, Юникод определяет не только коды символов, но и правила их обработки, алгоритмы сортировки, нормализации и другие свойства, в то время как ISO/IEC 10646 определяет кодовое пространство.
Юникод определяет абстрактные кодовые точки, но для хранения в файлах и передачи нужны конкретные байтовые представления — формы преобразования Unicode. Самой известной таковой формой становится UTF-8, где есть почти всё необходимое. Имеются также варианты UTF-16 и UTF-32, которые обладают иным форматом, но вмещают в себя те же символы, но жрут больше памяти.
Чтобы докукарекать себе в программу возможность использования юникод, часто надо присовывать программе модули, так как по умолчанию часто поддерживается только латиница. Скажем, в Perl это use utf8;