Израильские ученые ускорили чтение данных из ДНК-хранилища в тысячи раз

Исследователи из Хайфского Техниона разработали метод на основе ИИ, который ускоряет на три порядка считывания данных с носителей на основе ДНК.

Исследование опубликовано в журнале Nature Machine Intelligence.

Использование ДНК для хранения данных – это новая перспективная область. ДНК предлагает значительные преимущества в качестве носителя информации. Несмотря на то, что ДНК "не железная", она может сохранять данные сотни тысяч лет. Такое хранилище имеет плотность в 100 миллионов раз большую, чем у обычных дисковых хранилищ.

Но разработка ДНК-хранилищ связана с целым рядом нерешенных задач. Для записи и хранения данных в этой технологии требуется синтезировать молекулу ДНК на основе последовательностей, кодирующих информацию. Для чтения сохраненных данных необходимо секвенировать ДНК.

Эти процессы на сегодня очень медленные и подверженные ошибкам по сравнению с традиционными методами хранения. Сегодня при записи данных на ДНК обычно создается несколько копий кодирующей молекулы. Эти копии хранятся вместе в одном контейнере. Во время секвенирования извлекается много ошибочных копий этих молекул, большинство из них содержат ошибки, а некоторые полностью теряют данные.

Метод, предложенный учеными Техниона, позволяет восстанавливать данные из ДНК-хранилища более точно, чем существующие решения и достаточно быстро: исследователи продемонстрировали, что их решение сокращает время извлечения и чтения данных с нескольких дней до 10 минут.

Разработанный Технионом метод DNAformer основан на методе машинного обучения – трансформере, обученном на смоделированных данных для реконструкции точных последовательностей ДНК из ошибочных копий. Метод также включает в себя специальный код исправления ошибок, адаптированный для ДНК, что обеспечивает целостность данных.

Новый метод позволяет считывать 100 мегабайт данных со скоростью в 3200 раз быстрее, чем самый точный существующий метод. По сравнению с ранее известными быстрыми методами DNAformer повышает точность до 40%. Это было продемонстрировано на наборе данных объемом 3,1 мегабайта, который включал изображения и тексты. Исследователи считают, что их технология масштабируема и ее можно оптимизировать для крупных хранилищ данных.