Альтернативная кодировка




«Альтернати́вная кодиро́вка» — основанная на CP437 кодовая страница, где все специфические европейские символы во второй половине заменены на кириллицу, при этом псевдографические символы оставлены нетронутыми. Следовательно, это не портит вид программ, использующих для работы текстовые окна, а также обеспечивает использование в них символов кириллицы.

Исторически существовало много вариантов альтернативной кодировки, но все различия касаются только области 0xF0 — 0xFF (240—255). Окончательным стандартом стала кодировка IBM CP866, поддержка которой была добавлена в MS-DOS версии 6.22. Она известна также как модифицированная альтернативная кодировка ГОСТа. В этой кодировке записываются имена файлов в системе FAT (и короткие имена в VFAT). Поныне является популярной стандартной кодировкой Microsoft в среде DOS и OS/2, используется в консоли русифицированных систем семейства Windows NT.

  .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
8. А Б В Г Д Е Ж З И Й К Л М Н О П
9. Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
A. а б в г д е ж з и й к л м н о п
B.
C.
D.
E. р с т у ф х ц ч ш щ ъ ы ь э ю я
F. Ё ё Є є Ї ї Ў ў ° · ¤  

 

Бурное развитие Интернет потеснило ее позиции в сторону "сетевых" кодировок, таких как Windows-1251 или koi8-r. Тем не менее, до сих пор эта кодировка находит свое применение и, судя по всему, будет использоваться еще очень долгое время.

Windows кодировка

Windows-1251 — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft.

Нижняя часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII. Числа под буквами обозначают шестнадцатеричный код подходящего символа в Юникоде.

Кодировка Windows-1251 (синоним CP1251

  .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
8. Ђ 402 Ѓ 403 ‚ 201A ѓ 453 „ 201E … 2026 † 2020 ‡ 2021 ? 20AC ‰ 2030 Љ 409 ‹ 2039 Њ 40A Ќ 40C Ћ 40B Џ 40F
9. ђ 452 ‘ 2018 ’ 2019 “ 201C ” 201D • 2022 – 2013 — 2014   ™ 2122 љ 459 › 203A њ 45A ќ 45C ћ 45B џ 45F
A. A0 Ў 40E ў 45E Ј 408 ¤ A4 Ґ 490 ¦ A6 § A7 Ё 401 © A9 Є 404 «AB AC AD ® AE Ї 407
B. ° B0 ± B1 І 406 і 456 ґ 491 µ B5 ¶ B6 · B7 ё 451 № 2116 є 454 » BB ј 458 Ѕ 405 ѕ 455 ї 457
C. А 410 Б 411 В 412 Г 413 Д 414 Е 415 Ж 416 З 417 И 418 Й 419 К 41A Л 41B М 41C Н 41D О 41E П 41F
D. Р 420 С 421 Т 422 У 423 Ф 424 Х 425 Ц 426 Ч 427 Ш 428 Щ 429 Ъ 42A Ы42B Ь 42C Э 42D Ю 42E Я 42F
E. а 430 б 431 в 432 г 433 д 434 е 435 ж 436 з 437 и 438 й 439 к 43A л 43B м 43C н 43D о 43E п 43F
F. р 440 с 441 т 442 у 443 ф 444 х 445 ц 446 ч 447 ш 448 щ 449 ъ 44A ы 44B ь 44C э 44D ю 44E я 44F

 

Windows-1251 выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского.

Имеет два недостатка:

· строчная буква «я» имеет код 0xFF (255 в десятичной системе). Она является «виновницей» ряда неожиданных проблем в программах без поддержки чистого 8-го бита, а также (гораздо более частый случай) использующих этот код как служебный (в CP437 он обозначает «неразрывный пробел», в Windows-1252 — ÿ, оба варианта практически не используются; число же -1, в дополнительном коде длиной 8 бит представляющееся числом 255, часто используется в программировании как специальное значение, например, индикатор конца файла EOF часто представляется значением -1).

· отсутствуют символы псевдографики, имеющиеся в CP866 и KOI8 (хотя для самих Windows, для которых она предназначена, в них не было нужды, это делало несовместимость двух использовавшихся в них кодировок заметнее).

КОИ-8

КОИ-8 (код обмена информацией, 8 битов), KOI8 — восьмибитовая ASCII-совместимая кодовая страница, разработанная для кодирования букв кириллических алфавитов.

Кодировка KOI8-R (русская)

  .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
8. ─ 2500 │ 2502 ┌ 250C ┐ 2510 └ 2514 ┘ 2518 ├ 251C ┤ 2524 ┬ 252C ┴ 2534 ┼ 253C ▀ 2580 ▄ 2584 █ 2588 ▌ 258C ▐ 2590
9. ░ 2591 ▒ 2592 ▓ 2593 ⌠ 2320 ■ 25A0 ∙ 2219 √ 221A ≈ 2248 ≤ 2264 ≥ 2265 A0 ⌡ 2321 ° B0 ² B2 · B7 ÷ F7
A. ═ 2550 ║ 2551 ╒ 2552 ё 451 ╓ 2553 ╔ 2554 ╕ 2555 ╖ 2556 ╗ 2557 ╘ 2558 ╙ 2559 ╚ 255A ╛ 255B ╜ 255C ╝ 255D ╞ 255E
B. ╟ 255F ╠ 2560 ╡ 2561 Ё 401 ╢ 2562 ╣ 2563 ╤ 2564 ╥ 2565 ╦ 2566 ╧ 2567 ╨ 2568 ╩ 2569 ╪ 256A ╫ 256B ╬ 256C © A9
C. ю 44E а 430 б 431 ц 446 д 434 е 435 ф 444 г 433 х 445 и 438 й 439 к 43A л 43B м 43C н 43D о 43E
D. п 43F я 44F р 440 с 441 т 442 у 443 ж 436 в 432 ь 44C ы 44B з 437 ш 448 э 44D щ 449 ч 447 ъ 44A
E. Ю 42E А 410 Б 411 Ц 426 Д 414 Е 415 Ф 424 Г 413 Х 425 И 418 Й 419 К 41A Л 41B М 41C Н 41D О 41E
F. П 41F Я 42F Р 420 С 421 Т 422 У 423 Ж 416 В 412 Ь 42C Ы42B З 417 Ш 428 Э 42D Щ 429 Ч 427 Ъ 42A

 

Разработчики КОИ-8 поместили символы русского алфавита таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается «читаемый» текст, хотя он и написан латинскими символами. Например, слова «Русский Текст» превратились бы в «rUSSKIJ tEKST». Как побочное следствие, символы кириллицы оказались расположены не в алфавитном порядке.

Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов, расширяющие определённые коды (общий диапазон 192-255 с 32 русскими буквами в двух регистрах остаётся неизменным во всех вариантах). Русский алфавит описывается в кодировке KOI8-R, украинский — в KOI8-U.

KOI8-R стал фактически стандартом для русской кириллицы в 1990-х годах в юникс-подобных операционных системах и электронной почте.

У вас встречалась ситуация, когда вы получаете электронное письмо, но не можете его прочитать - вместо текста идут какие-то кракозябры? То же самое случается и в интернете - открываете страницу, а разобрать ничего не возможно. Причем, такое происходит именно с русским текстом, с английским подобные проблемы маловероятны. Причина проблем - открытие файла в неверной кодировке.

На самом деле, проблема разных кодировок не столь уж велика. Если мы знаем, как представлен исходный текст и какая таблица используется нашим компьютером, преобразование выполнить очень легко ‑ нужно просто поменять одни коды на другие (по таблице перекодировки). Для этого служат специальные программы ‑ текстовые конверторы. В последнее время имеются конверторы, способные самостоятельно определять исходную кодировку текста и даже умеющие "расшифровывать" текст после нескольких неправильных перекодировок.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-08-27 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: