Исследователи Microsoft сделали шаг навстречу созданию хранилищ данных на основе ДНК

28.03.2019 |

Александр Абрамов

Группа исследователей из Microsoft и Университета Вашингтона доказали работоспособность концепции разработанной ими модели ДНК-хранения данных. Они смогли сохранить 5-байтное слово, а затем безошибочно прочитать его.

Системы хранения на основе ДНК теоретически способны применяться наравне с жесткими дисками, ленточными накопителями и другими носителями информации. Более того, емкость ДНК хранилищ во много превышает нынешние рекордные показатели. Но пока речь идет только об экспериментах.

Группа исследователей из Microsoft и Университета Вашингтона доказали работоспособность концепции созданной ими модели ДНК-хранения данных. Они смогли сохранить 5-байтное слово, а затем безошибочно прочитать его после извлечения из ДНК-хранилища на базе испытательного стенда.

Исследователи Microsoft Research показали реально созданное устройство, позволяющее «автоматизировать» процесс записи данных в ДНК и их последующее чтение, сообщает издание Nature. Предложенный прототип будет в дальнейшем совершенствоваться для разработки промышленных систем применения ДНК-технологии в системах хранения данных.

По оценкам ученых Microsoft, 1 гр ДНК-данных способен «уместить» в себе до 215 петабайт информации. Как показывает археологический опыт, срок сохранности информации уже сейчас подтверждена не менее 2000 лет, причем при неблагоприятных условиях хранения. Это позволяет в будущем не только обеспечить высокую надежность и долговечность хранения данных, но и существенно сократит требуемых объем для хранения данных.

История проекта

Разработчиками автоматизированного прототипа системы ДНК-хранения данных стали исследователи из компании Microsoft, а также Школы компьютерных наук Вашингтонского университета, основанной со-учредителем Microsoft Полом Алленом.

В нынешнем виде система представляет собой лабораторный стенд, содержащий различные наборы жидкостей, колб, шприцов и электронных компонентов.

Экспериментальный стенд системы ДНК-хранения данных. Источник: Nature

В настоящее время создатели системы смогли дойти до стадии концепции доказанного прототипа (proof-of-concept). Им удалось успешно автоматизировать процесс перевода цифровой информации в форму ДНК-хранения и обратно в биты, создав в результате первое в своем роде полностью автоматизированное хранилище-прототип на базе ДНК.

Успешные эксперименты по записи данных в ДНК проводились и ранее, однако полностью автоматическим процесс стал только теперь.

Результаты эксперимента были опубликованы в журнале Nature Scientific Reports, также Microsoft сообщила о них на своем сайте.

Концепция доказанного прототипа (proof-of-concept) системы ДНК-хранения данных. Источник: Nature

Подтверждение концепции системы ДНК-хранения

В качестве эксперимента исследователи использовали 5-байтную интерпретацию слова «hello», которое им удалось зашифровать в ДНК.

Первым делом они перевели слово в биты, представив в виде нулей и единиц. Затем биты были перекодированы с помощью четырех базовых оснований ДНК: аденина (A), гуанина (G), цитозина (C) и тимина (T). Эти химические основания позволяют закодировать в молекуле ДНК любую информацию. Благодаря наличию четырех различных фракций применяется не двоичная, а четверичная система кодирования.

Созданная в результате цепочка ДНК была синтезирована в лаборатории и сохранена в виде жидкости. Для синтеза применялись недорогие компоненты, само оборудование также не отличается сложностью. Как отмечают исследователи, это дает уверенность, что будущая система хранения будет доступной и недорогой.

После этого исследователи смогли прочитать сообщение с помощью ДНК-секвенсора, а затем посредством дешифрующей программы перевести его обратно в биты. На всех стадиях обработки применялось ПО, разработанное Microsoft.

Характеристики системы ДНК-хранения данных. Источник: Nature

Процесс извлечения информации осуществляется путем добавления других химических веществ для подготовки ДНК. Затем используются микрофлюидные насосы для проталкивания жидкостей в другие части системы. Там происходит «считывание» последовательности ДНК и преобразование полученной информации обратно в код, понятный компьютеру.

В ходе преобразование «hello» в нуклеотиды было получено примерно 1 мг ДНК, около 4 мкг было использовано для записи последовательности действий. При такой плотности хранения все данные, размещенные сегодня в обычном ЦОДе размером с крупный дом, уместятся в ДНК-хранилище, объем которого будет соразмерен нескольким игральным костям.

Объем информации, с которой работали ученые, составлял 5 байт. Процесс конвертации данных в ДНК и обратно занял 21 ч. Себестоимость операции с учетом всех расходов оценили в $10 тыс. Однако такие высокие цены характерны только для экспериментальной стадии работ. Когда технология достигнет эксплуатационного уровня, ее себестоимость будет снижена многократно, уверены исследователи.