загрузка...
загрузка...
На головну

Текстова інформація

  1. I. За яких умов ця психологічна інформація може стати психодиагностической?
  2. асиметричної інформації
  3. Б. Спотворення інформації та дезінформація.
  4. Бойова розвідувальна інформація.
  5. Зовнішня - інформація, яку збирають за межами фірми.
  6. Генетична інформація в клітці. Гени, генетичний код і його властивості. Матричний характер реакцій біосинтезу. Біосинтез білка і нуклеїнових кислот
  7. Глава 2. Інформація. двійкове кодування

При зберіганні в комп'ютері будь-який текст (документ, стаття, книга) розглядається як лінійна послідовність символів. Причому проміжок між окремими словами - пробіл, перехід на наступний рядок, перехід на наступну сторінку - також можуть розглядатися як деякі специфічні символи. Кожному символу з цієї послідовності ставиться у відповідність конкретний двійкового коду, що складається рівно з восьми двійкових розрядів. Таким чином, код кожного символу тексту займає рівно один байт пам'яті. І отже, текст цілком займає стільки байт пам'яті машини, зі скількох символів він складається (включаючи всі символи тексту - прогалини, знаки пунктуації, спеціальні знаки переходу на нову сходинку, на нову сторінку і т. Д.).

Списки всіх використовуваних при записі текстів символів і відповідних їм двійкових кодів утворюють так звані кодові таблиці.У практиці програмування застосовуються різні кодові таблиці. Найбільш часто використовується кодова таблиця ASCII(American Standart Code for Information Interchange - стандартний американський код для обміну інформацією), яка в даний час фактично стала загальносвітовим стандартом. У таблицю входять коди малих і великих латинських букв, коди для цифр, розділових знаків, різних математичних символів, знаків, якими можна малювати в текстах таблиці і т. Д. А всього в ній зафіксовані коди для 128 різних символів. Список цих символів і відповідні їм восьмирозрядні (тобто складаються з восьми двійкових розрядів, цифр) двійкові коди утворюють основну (базову) кодову таблицю ASCII. Але, як було з'ясовано раніше, один байт може містити 256 різних двійкових кодів, що складаються з восьми біт. Це означає, що в стандарті ASCII задіяна тільки половина можливих кодів. є різні розширення основний кодової таблиці ASCII, в яких задаються коди ще для 128 символів, в тому числі для і символів різних національних алфавітів. Фрагмент одного з розширень кодової таблиці ASCII, що включає літери російського алфавіту - кирилиці, наведено в табл. 4.2.

Таблиця 4.2. Фрагмент кодової таблиці

 символ  2-й код  16-й код  символ  2-й код  1 6-й код
 А Б В Г Д Е Ж І Й К Л М Н О П  1000 10101000 1111  8А8В8С8D8Е8F  Р С Т У Ф X Ц Ч Ш Щ ред И Ь Е Ю Я  1001 00001001 00011001 01001001 01011001 10001001 10011001 10101001 10111001 11001001 11011001 11101001 1111  9А9В9С9D9Е9F

Як приклад кодування отримаємо машинний код тексту, що складається з одного слова «КОМП'ЮТЕР». Цей текст складається з 9 символів, отже, для його зберігання потрібно 9 байтів пам'яті. Використовуючи табл. 4.2, для кожного символу легко отримати відповідний йому двійковий код. Залишається тільки записати знайдені коди в групу підряд розташованих байтів пам'яті. У таблиці 4.3 наведено отриманий таким чином машинний код цього тексту. У першому рядку таблиці вказані порядкові номери байтів пам'яті, в яких записаний текст, в другій - символи, з яких він складається, в третій - машинні, двійкові коди, а в четвертій - шістнадцяткові коди цих символів. Таким чином, текст «КОМП'ЮТЕР» в обчислювальній машині представлений двійковим кодом:

1000 1010 1000 1110 1000 1100 1000 1111 1001 1100 1000 1110 1001 0010 1000 0101 1001 00002.

Таблиця 4.3.Машинний код тексту «КОМП'ЮТЕР»

К О М П Ь Ю Т Е Р
 8 Е  8С  8F  9С  9Е

Цей код можна скорочено записати в шістнадцятковому вигляді:

82 8 Е 8С 8F 9С 9Е 92 85 9016.

Слід розуміти, що прогалини між четвірками довічних цифр і парами шістнадцятирічних вставляються тільки для зручності їх сприйняття, читання людиною, і в пам'ять комп'ютера вони, природно, не записуються.

Зверніть увагу на те, що в табл. 4.2 наведені коди заголовних букв. Малі літери мають інші коди. Наприклад, код букви «а» має вигляд 101000002, В той час як код букви «А» - 1000 00002. Не випадково що розглядається слово записано саме в такому вигляді - машинний код слова «КОМП'ЮТЕР» відрізняється від машинного коду слова «комп'ютер».

Зауважимо, що знати кодову таблицю напам'ять зовсім не потрібно. Тільки в дуже рідкісних випадках доводиться користуватися наведеними в ній кодами символів. Всі необхідні перетворення від символів до їх кодами і назад - від кодів до символів - виробляються машиною автоматично.

Однак необхідно пам'ятати про те, що існує багато різних кодових таблиць і що різні програми можуть використовувати для запису текстів різні кодові таблиці. А в різних кодових таблицях один і той же код відповідає різним символам. Так, наприклад, двійковий код 1000 10102 відповідає символу «К» тільки в так званій «Гост-альтернативної»Кодової таблиці. Саме її фрагмент наведено в табл. 4.2. А в іншій популярній кодової таблиці з назвою «Windows-1251» Цього ж двійкового коду служить для позначення символу «С ™». Отже, текст, записаний будь-якої програмою в одній кодовій таблиці, може бути повністю спотворений при його читанні за допомогою іншої програми. Якщо наведений вище код слова «КОМП'ЮТЕР» спробувати прочитати за допомогою програми, яка використовує кодову таблицю «Windows-1251», то цей код буде представлений «словом» «ЉЋЊЏњћ '... А».

Чи правомірно поставити запитання: «А навіщо потрібні різні кодові таблиці, раз вони можуть приводити до такого роду плутанини?». Справа в тому, що якщо врахувати всі можливі букви, що зустрічаються в національних алфавітах європейських країн, всі можливі символи, які зустрічаються в математичних та інших спеціальних текстах, не кажучи вже про алфавітах азіатських мов, таких як японський, корейський, китайський, то двохсот п'ятдесяти шести символів, які можуть бути закодовані описаним вище способом, виявиться явно мало. Тому і розроблено таку велику кількість різних кодіровочних таблиць.

Необхідно відзначити, що останнім часом все ширше використовується кодова таблиця з назвою UNICODE(UNIversal CODE - універсальний код), в якій для коду одного символу відводиться два байта, а не один, як у розглянутих вище таблицях. Відразу ж впадає в очі очевидний недолік цієї кодування -вимагає рівно в два рази більше місця в пам'яті, ніж при записі в однобайтовим кодуваннях. Так, для слова «КОМП'ЮТЕР» тепер потрібно вісімнадцять байтів, а не дев'ять, як це було раніше. Але в зв'язку з тим, що пам'ять стає все більш і більш дешевої, цей недолік стає все менш і менш значущим. Крім того, він з лишком покривається очевидною перевагою: за допомогою двох байтів, тобто шістнадцяти розрядів, можна закодувати 216= 65 536 різних символів, а не 28= 256 символів однобайтовим кодувань. Такої кількості різних символів цілком достатньо для того, щоб представити практично всі зустрічаються у всіляких текстах символи.

Використання кодових таблиць для представлення різних текстів в пам'яті комп'ютера вирішує тільки частина проблеми. Якщо уважніше подивитися на текст, скажімо, в газеті, журналі або книзі, то можна помітити, що практично будь-який текст містить ті чи інші елементи оформлення. Символи, з яких складається текст, можуть мати різні розміри і різний накреслення. Вони можуть бути похилими, підкресленими, виділеними жирним шрифтом і т. Д. По-різному можуть бути оформлені абзаци і сторінки тексту. На сторінці можуть перебувати номера, колонтитули, виноски. Всі ці, а також і багато інших елементів оформлення тексту при його записи в пам'ять комп'ютера також потребують певної кодуванні.

Існує багато різних форматів - конкретних способів кодування символів тексту і фіксації елементів його оформлення. Зокрема, можна згадати загальноприйнятий, «зрозумілий» переважній більшості працюють з текстами програм формат ТХТ(Від слова text - текст). Цей формат грунтується на одній з кодових таблиць для представлення символів тексту і практично не містить ніяких елементів його оформлення. Зауважимо, що саме тому з цим форматом можуть працювати дуже багато програм. Значно більш складним, але також досить популярним є формат RTF(Rich Text Format - багатий текстовий формат), який містить дуже багато різних можливостей по оформленню текстів.



Попередня   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   Наступна

УВАГА | УВАГА | ГЛАВА 3. Основні сфери застосування обчислювальної техніки | УВАГА | ПРИМІТКА | УВАГА | Електронна пошта | УВАГА | Основи зберігання інформації в комп'ютері | УВАГА |

загрузка...
© um.co.ua - учбові матеріали та реферати