いよいよ、プロ野球シーズンが開幕します。それは、再びコンテンツの量が増えることを意味します。たとえば、選手の統計やチームの記録をはじめ、世界各地のスタジアムでの試合や、さまざまな角度で撮影されたすべてのプレイの映像などです。
実際、MLB Networkは1日に最大で50 TB(テラバイト)の新規コンテンツをアップロードしており、アーカイブにはさらに多くのコンテンツが格納されます。試合中継や毎日のハイライト番組、あるいは後日の放送でデータをタイムリーに配信するために、同局のデータ管理部門はデータアクセスに求められる速度や頻度に基づいて、ホットデータ、ウォームデータ、コールドデータをどこに格納するかを判断しなければなりません。
スポーツ統計、医療、コンプライアンス、履歴データなど、その内容を問わず、日々生成されるデータは解析可能な量を上回り、その比率は伸び続けています。
業界の専門家の推定によれば、データは年に約30%の割合で増加しており、2025年までに175 ZB(ゼタバイト)に達する見込みです。すべてのデータセットをすぐに解析する必要はないものの、保管しておくことは重要です。ここで登場するのがコールドストレージです。
コールドストレージとは、使用頻度の低いデータを保管するストレージです。データには、アーカイブ、つまり低コストでアクセス頻度の低い「コールド」なストレージ階層に格納できるものと、それとは対照的に、金融取引データなど、すぐにアクセスできなければならない最新の「ホット」な実稼働データがあります。
業界アナリストによれば、必要になるまでコールドなストレージ階層にアーカイブまたは格納できるデータは、格納対象データの60%以上にのぼります。
「世界ではかつてないスピードでアーカイブデータが生成され、格納されています。そのためコールドストレージはストレージ市場で最も成長の速い分野です」とウエスタンデジタルの企業戦略イニシアティブ部門、バイスプレジデントのSteffen Hellmoldは述べています。「大きな破壊的変化が発生しています。格納するデータが絶え間なく増加する中で、クラウドプロバイダーはすべてのデータを管理するために、アクセス性能の高いアーカイブを使用してアーキテクチャの再構築を図っています」。
ゼタバイト時代に突入し、格納するデータが増えるほど、そのコストも増えていきます。データプールの大半は、一般的に映像やゲノムデータ、あるいは機械学習のトレーニングに使用するデータやAIのユースケースといった非構造化データです。コールド、つまりセカンダリストレージは、ホット、つまりプライマリストレージより低コストなので、使用頻度の高くないデータを低コストのコールドストレージプールに格納することは理にかなっています。
「最も考慮すべき点は、データにどの程度の頻度でアクセスする必要があるか、あるいは必要になったデータをどの程度迅速に使用したいかという点です。」ウエスタンデジタルのプラットフォームビジネスディレクター、Mark Pastorはこのように述べています。今日のクラウドストレージサービスのサービス品質保証(SLA)の指標は、データへのアクセス頻度と顧客の許容待機時間を基準にしています。一部のクラウドプロバイダーでは、コールド層に格納されたデータへのアクセスに5~12時間かかる一方、ニアラインデータはホット層に格納され、すぐに使用できるものの、相応のコストがかかります。
ウエスタンデジタルのプラットフォームビジネスバイスプレジデントのKurt Chanは「コストとアクセス性能以外の第3の要因として、心理的要素が挙げられます。いつか必要になるかもしれないものを削除するのは、多くの場合、心理的に抵抗があるものです」と述べています。「どのデータが後で役立つか、誰もわからないのですから」。
これまで、セカンダリ(コールド)ストレージの大半はテープかハードディスクドライブ(HDD)に限定されていました。一方、ホットデータはソリッドステートドライブ(SSD)に移行しています。ウエスタンデジタルはSSD、HDD、テープヘッドを提供していますが、セカンダリストレージはプライマリストレージより速く成長すると考えています。Horison Information Strategiesによれば、今日、デジタルデータの60%以上はアーカイブデータとして分類でき、この割合は2025年までに80%以上に達する見込みです。ストレージ市場では群を抜いて最大、最速の成長分野であると同時に、次の大きな挑戦でもあります。
テープはHDDより低コストですが、データアクセスのレイテンシーがはるかに大きいため、コールドデータストレージの選択肢として適しています。データの価値がデータに対するアクセス性能とマイニング性能に関係するならば、ディスクへの格納とテープへの格納には非常に大きな違いがあります。
言い換えると、データへのアクセス性能が高いほど、データの価値は高まります。
HDDは、アクティブアーカイブソリューションに必要なTCO(Total Cost of Ownership:総保有コスト)の向上と、アクセス性能の向上を両立させる次世代のディスクテクノロジー兼プラットフォームへと進化しつつあります。HDDテクノロジーの進歩には、新しいデータ配置テクノロジー(ゾーニング)、面密度の向上、機械的な技術革新、インテリジェントデータストレージ、素材関連の新技術などが挙げられます。
最大級のデータプールを収容するハイパースケーラーは、増加の一途をたどるデータを格納するために最も費用対効果の高い方法を求めています。そのためアーカイブストレージアーキテクチャの再構築を図るIT組織によって、コールドストレージのために新しい階層が出現しつつあります。
長期のデータストレージには世紀単位、つまり100年以上のデータ格納期間が求められるようになりました。その中でDNA、光学式、さらにはコールドデータ以上の長期保存(ディープフリーズ)ストレージなど、新しいコールドストレージソリューションが開発されています。
2020年11月、ウエスタンデジタルはDNAデータストレージ分野の推進を目指し、マイクロソフト社、ツイストバイオサイエンス(Twist Bioscience)社、イルミナ社(Illumina)社と提携し、DNA Data Storage Allianceの設立を発表しました。高密度のDNAは、大量の情報を小さなスペースに保管することができます。さらに保管期間が数千年に及ぶため、アーカイブストレージとして魅力的なメディアなのです。
途方もない規模でデータ生成が進む中で、コールドストレージはデータを長期にわたり手頃なコストで保管するために欠かせない存在となるでしょう。ストレージイノベーターは、近い将来と数世代先、そのどちらにも存在する重要なデータにアクセスできる、長期のデータストレージソリューションの開発を進めています。
著者: Anne Herreria
※Western Digital BLOG 記事(MAY 10, 2021)を翻訳して掲載しています。原文はこちら。
戻る