Двоичный файл - Binary file

А шестнадцатеричный дамп из 318 байт Википедия фавикон, или же W.svg из Википедии. В первом столбце указан начальный адрес строки, а в * указывает на повторение.

А двоичный файл это компьютерный файл это не текстовый файл.[1] Термин «двоичный файл» часто используется как термин, означающий «нетекстовый файл».[2] Многие двоичные форматы файлов содержат части, которые можно интерпретировать как текст; например, некоторые файлы компьютерных документов содержащий форматированный текст, Такие как старый документ Microsoft Word файлы, содержат текст документа, но также содержат информацию о форматировании в двоичной форме.[2]

Структура

Двоичные файлы обычно рассматриваются как последовательность байты, что означает двоичные цифры (биты ) сгруппированы по восьмеркам. Двоичные файлы обычно содержат байты, которые предназначены для интерпретации не как текст. символы. Составлено компьютерные программы являются типичными примерами; действительно, скомпилированные приложения иногда упоминаются, особенно программистами, как двоичные файлы. Но двоичные файлы также могут означать, что они содержат изображения, звуки, сжатые версии других файлов и т. Д. - короче говоря, любой тип содержимого файла вообще.[1]

Некоторые двоичные файлы содержат заголовки, блоки метаданные используется компьютерная программа интерпретировать данные в файле. Заголовок часто содержит подпись или магия номер который может идентифицировать формат. Например, Гифка Файл может содержать несколько изображений, а заголовки используются для идентификации и описания каждого блока данных изображения. Первые байты заголовка будут содержать текст вроде GIF87a или же GIF89a который может идентифицировать двоичный файл как Гифка файл. Если двоичный файл не содержит заголовков, его можно назвать плоский двоичный файл.

Манипуляции

Для отправки двоичных файлов через определенные системы (например, электронное письмо ), которые не допускают всех значений данных, они часто переводятся в обычное текстовое представление (например, с использованием Base64 ). Недостатком кодирования данных является увеличение размера файла во время передачи (например, использование Base64 увеличивает размер файла примерно на 30%), а также необходимость перевода обратно в двоичный код после получения. Увеличенному размеру можно противопоставить сжатие ссылок более низкого уровня, так как результирующие текстовые данные будут иметь примерно столько же энтропия поскольку он увеличился в размере, фактические данные, передаваемые в этом сценарии, вероятно, будут очень близки к размеру исходных двоичных данных. Видеть Двоичное кодирование текста для получения дополнительной информации по этой теме.

Майкрософт Виндоус и его стандартные библиотеки для C и C ++ языки программирования позволяют программисту указывать параметр, указывающий, должен ли файл быть простым текстовым или двоичным при открытии файла; это влияет на вызовы стандартной библиотеки для чтения и записи из файла, поскольку система преобразует между символом «конца строки» C / C ++ (символ перевода строки ASCII) и последовательностью конца строки, которую Windows ожидает в файлах (ASCII возврат каретки и символы перевода строки последовательно). В Unix-подобный систем, стандартные библиотеки C и C ++ в этих системах также позволяют программисту указать, должен ли файл быть текстовым или двоичным, но библиотеки могут игнорировать и игнорируют этот параметр, поскольку последовательность конца строки в Unix-подобных systems - это просто символ конца строки C / C ++.

Просмотр

А шестнадцатеричный редактор или программа просмотра может использоваться для просмотра данных файла как последовательности шестнадцатеричных (или десятичных, двоичных или ASCII символов) значений для соответствующих байтов двоичного файла.[2]

Если двоичный файл открывается в Текстовый редактор, каждая группа из восьми битов обычно переводится как один символ, и пользователь будет видеть (возможно, неразборчивое) отображение текстовых символов. Если файл открыт в каком-то другом приложении, это приложение будет использовать каждый байт по-своему: возможно, приложение будет рассматривать каждый байт как число и выводить поток чисел от 0 до 255 - или, возможно, интерпретировать числа в байтах. как цвета и отобразить соответствующее изображение. Другие типы программ просмотра (называемые «экстракторами слов») просто заменяют непечатаемые символы пробелами, открывая только читаемый человеком текст. Этот тип просмотра полезен для быстрой проверки двоичного файла, чтобы найти пароли в играх, найти скрытый текст в нетекстовых файлах и восстановить поврежденные документы.[2] Его даже можно использовать для проверки подозрительных файлов (программного обеспечения) на предмет нежелательных эффектов. Например, пользователь увидит любой URL / адрес электронной почты, к которому подозрительное программное обеспечение может попытаться подключиться, чтобы загрузить неутвержденные данные (для кражи). Если сам файл рассматривается как исполняемый файл и запустить, тогда операционная система попытается интерпретировать файл как серию инструкций в своем машинный язык.

Интерпретация

Стандарты очень важны для двоичных файлов. Например, двоичный файл, интерпретируемый набором символов ASCII, приведет к отображению текста. Пользовательское приложение может интерпретировать файл по-разному: байт может быть звуком, пикселем или даже целым словом. Сам по себе двоичный файл не имеет смысла до тех пор, пока исполняемый алгоритм не определит, что следует делать с каждым битом, байтом, словом или блоком. Таким образом, простое изучение двоичного файла и попытка сопоставить его с известными форматами может привести к неправильному выводу о том, что он на самом деле представляет. Этот факт можно использовать в стеганография, где алгоритм по-разному интерпретирует файл двоичных данных, чтобы выявить скрытое содержимое. Без алгоритма невозможно сказать, что скрытый контент существует.

Двоичная совместимость

Два файла, которые являются двоично совместимыми, будут иметь одинаковую последовательность нулей и единиц в части данных файла. Однако заголовок файла может быть другим.

Этот термин чаще всего используется для обозначения того, что файлы данных, созданные одним приложением, точно такие же, как файлы данных, созданные другим приложением. Например, некоторые компании-разработчики программного обеспечения создают приложения для Windows и Macintosh которые являются двоично-совместимыми, что означает, что файл, созданный в среде Windows, взаимозаменяем с файлом, созданным на Macintosh. Это позволяет избежать многих проблем с преобразованием, вызванных импортом и экспортом данных.

Одна из возможных проблем двоичной совместимости между разными компьютерами - это порядок байтов компьютера. Некоторые компьютеры хранят байты в файле в другом порядке.[3]

Смотрите также

Рекомендации

  1. ^ а б «Определение двоичного файла от Информационного проекта Linux (LINFO)». www.linfo.org. Получено 2017-10-12.
  2. ^ а б c d «Ascii против двоичных файлов». www.cs.umd.edu. Получено 2017-10-12.
  3. ^ «NCL: чтение двоичных данных». www.ncl.ucar.edu. Архивировано из оригинал на 2017-10-12. Получено 2017-10-12.

внешняя ссылка