データレイク(Data Lake)とは、あらゆる種類の構造化データや非構造化データをそのまま保存・管理することができるストレージリポジトリ(格納庫、貯蔵庫)のことを指します。構造化データとはデータベース等で管理された規則性を持ったデータであり、非構造化データとは文書、画像、動画等の形式の異なるデータを指します。
これまでデータ解析のために管理される情報の置き場所としては、データウェアハウスが広く用いられてきました。しかし、この手法は、業務システムなどがリレーショナルデータベース(RDB)のテーブルなどの形式で定型的に整然と記録する構造化データに偏っていました。
膨大な量の異種データを扱う場合、従来のリレーショナル型DBでは解決困難な問題が発生しました。そこで登場したのが、「情報の湖」とも呼ばれるデータレイクです。このシステムにおいては、従来型RDBMS (Relational Database Management System) に比べて格納可能な異種データ数や保存期間に制限がありません。
さらに、このシステムは「集めるだけ」ではなく、将来必要になった時に必要に応じて分析や活用することが可能です。例えば特定商品の出荷履歴を調査したり、不正アクセスログを監視することができます。このようにビッグデータ解析を行うことで新たな発見や問題解決が可能になります。
また、近年では機械学習技術を用いてデータレイクの中から特定のテーマやパターンを抽出する活用方法も求められています。これによって、企業は消費者との良好な関係構築や製品開発に資する情報を得ることができます。
しかしながら、データレイクはあくまで膨大な量・種類の異種データ管理システムであり、分析等の作業は別途行われる必要がありますが、分析の際に求めるデータが不足したり、複数のシステムからデータを集めたりといった問題がなくなります。