Отпечаток пальца (вычисление) - Fingerprint (computing)
В Информатика, а алгоритм снятия отпечатков пальцев это процедура, которая карты произвольно большой данные предмет (например, компьютер файл ) намного короче кусочек строка, это отпечаток пальца, который однозначно идентифицирует исходные данные для всех практических целей.[1] такой же человек отпечатки пальцев однозначно идентифицировать людей для практических целей. Этот отпечаток пальца может быть использован для дедупликация данных целей. Это также называется отпечатком файла, отпечатком данных или отпечатком структурированных данных.
Отпечатки пальцев обычно используются, чтобы избежать сравнения и передачи объемных данных. Например, веб-браузер или же Прокси сервер может эффективно проверять, был ли изменен удаленный файл, получая только его отпечаток и сравнивая его с отпечатком ранее полученной копии.[2][3][4][5][6]
Функции отпечатков пальцев можно рассматривать как высокопроизводительные хэш-функции используется для однозначной идентификации значительных блоков данных, в которых криптографические хеш-функции может быть ненужным. Аудио отпечаток пальца алгоритмы не следует путать с этим типом функции отпечатков пальцев.
Характеристики
Виртуальная уникальность
Чтобы служить своему прямому назначению, алгоритм снятия отпечатков пальцев должен иметь возможность фиксировать идентичность файла с виртуальной достоверностью. Другими словами, вероятность столкновение - два файла с одним и тем же отпечатком пальца - должны быть незначительными по сравнению с вероятностью других неизбежных причин фатальных ошибок (например, уничтожение системы война или метеорит ): скажем, 10−20 или менее.
Это требование в чем-то похоже на функцию контрольной суммы, но гораздо более жесткое. Чтобы обнаружить случайное повреждение данных или ошибки передачи, достаточно, чтобы контрольные суммы исходного файла и любой поврежденной версии почти наверняка различались, учитывая некоторую статистическую модель ошибок. В типичных ситуациях эта цель легко достигается с помощью 16- или 32-битных контрольных сумм. Напротив, отпечатки файлов должны быть не менее 64-битной длины, чтобы гарантировать виртуальную уникальность в больших файловых системах (см. атака на день рождения ).
При доказательстве вышеуказанного требования необходимо учитывать, что файлы создаются неслучайными процессами, которые создают сложные зависимости между файлами. Например, в типичной бизнес-сети обычно можно найти много пар или кластеров документов, которые отличаются только незначительными правками или другими небольшими изменениями. Хороший алгоритм снятия отпечатков пальцев должен гарантировать, что такие «естественные» процессы генерируют четкие отпечатки пальцев с желаемым уровнем достоверности.
Компаундирование
Компьютерные файлы часто объединяются различными способами, например, конкатенацией (как в архивные файлы ) или символическое включение (как с Препроцессор C с #включают директива). Некоторые алгоритмы снятия отпечатков позволяют вычислить отпечаток составного файла на основе отпечатков пальцев его составных частей. Это свойство «сложения» может быть полезно в некоторых приложениях, например для определения того, когда программа должна быть перекомпилирована.
Алгоритмы
Алгоритм Рабина
Алгоритм снятия отпечатков пальцев Рабина[7] является прототипом класса. Его легко и быстро внедрить, он позволяет производить сложное и математически точный анализ вероятности столкновения. А именно вероятность двух строк р и s дающий то же самое ш-битовый отпечаток пальца не превышает max (|р|,|s|)/2ш-1, где |р| обозначает длину р в битах. Алгоритм требует предварительного выбора ш-битный внутренний "ключ", и эта гарантия действует до тех пор, пока строки р и s выбираются без знания ключа.
Метод Рабина небезопасен от злонамеренных атак. Злоумышленник может легко обнаружить ключ и использовать его для изменения файлов без изменения своего отпечатка пальца.
Криптографические хеш-функции
Обычные хэш-функции криптографического уровня обычно могут служить высококачественными функциями отпечатков пальцев, подлежат тщательной проверке со стороны криптоаналитиков и имеют то преимущество, что они считаются безопасными от злонамеренных атак.
Недостаток криптографических алгоритмов хеширования, таких как MD5 и SHA в том, что они выполняются значительно дольше, чем алгоритм Рабина по отпечатку пальца. У них также нет проверенных гарантий вероятности столкновения. Некоторые из этих алгоритмов, в частности MD5, больше не рекомендуются для надежного снятия отпечатков пальцев. Они по-прежнему полезны для проверки ошибок, когда целенаправленная подделка данных не является основной проблемой.
Отпечатки пальцев и водяные знаки для реляционных баз данных
Снятие отпечатков пальцев и цифровые водяные знаки для реляционных баз данных появились в качестве возможных решений для обеспечения защиты авторских прав, обнаружения несанкционированного доступа, отслеживания предателей и поддержания целостности реляционных данных. В литературе было предложено множество методов для решения этих задач. Доступен обзор современного состояния и классификация различных подходов в зависимости от их намерений, способа выражения отпечатка пальца / водяного знака, типа обложки, уровня детализации и их проверяемости.[8]
Примеры применения
NIST распространяет справочную библиотеку программного обеспечения, американская Национальная справочная библиотека по программному обеспечению, который использует криптографические хеш-функции для отпечатков файлов и сопоставления их с программными продуктами. В HashKeeper база данных, поддерживаемая Национальный центр наркологической разведки, представляет собой хранилище отпечатков "заведомо исправных" и "заведомо плохих" компьютерных файлов для использования в приложениях правоохранительных органов (например, для анализа содержимого изъятых дисковых накопителей).
Смотрите также
- Акустическая дактилоскопия
- Автоматическое распознавание контента
- Снятие отпечатков пальцев на холсте
- Цифровое видео отпечатков пальцев
- Отпечатки стека TCP / IP
- Отпечаток устройства
- Код исправления ошибок
- Отпечаток открытого ключа
- Функция рандомизации
- Доля использования веб-браузеров
Рекомендации
Сюда входит список общих Рекомендации, но он остается в основном непроверенным, потому что ему не хватает соответствующих встроенные цитаты.Февраль 2018 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
- ^ А.З. Бродер. Некоторые применения дактилоскопического метода Рабина. В Последовательностях II: Методы связи, безопасности и информатики, страницы 143-152. Springer-Verlag, 1993 г.
- ^ Обнаружение повторяющихся и почти повторяющихся файлов. Патент США 6658423, выдан 2 декабря 2003 г.
- ^ А.З. Бродер (1997). О сходстве и содержании документов. Процедура сжатия и сложности последовательностей. Компьютерное общество IEEE. С. 21–27. CiteSeerX 10.1.1.24.779. Дои:10.1109 / SEQUEN.1997.666900. ISBN 978-0-8186-8132-5. S2CID 11748509.
- ^ Брин, С. и Дэвис, Дж. и Гарсия-Молина, Х. (1995) Механизмы обнаружения копирования для цифровых документов. В: Международная конференция ACM по управлению данными (SIGMOD 1995), 22-25 мая 1995 г., Сан-Хосе, Калифорния, от stanford.edu. В архиве 18.08.2016. Проверено 01.11.2019.
- ^ Л. Фан, П. Цао, Дж. Алмейда и А. Бродер, Сводный кэш: масштабируемый протокол общего доступа к веб-кэшу, Транзакции IEEE / ACM в сети, т. 8, № 3 (2000)
- ^ У. Манбер, Поиск похожих файлов в большой файловой системе. Материалы зимней технической конференции USENIX. (1994)
- ^ Рабин М. О. Снятие отпечатков пальцев случайными многочленами. Центр исследований в области компьютерных технологий, отчет Гарвардского университета TR-15-81 (1981)
- ^ http://www.jucs.org/jucs_16_21/watermarking_techniques_for_relational/jucs_16_21_3164_3190_halder.pdf