HADOOPを使ったスケールアウトアプローチ開発事業

サービスで発生する様々なユーザーの行動ログや、業務データを収集、加工して、事業成長に還元するビッグデータ部において、その中でデータ収集、加工の中心となるビッグデータ基盤の開発を担いながら、データ活用で事業貢献することをミッションに日々取り組んでおります。アクティビティや分析データを集約するビッグデータ基盤のシステムの設計・開発・運用をご担当いただきます。特に今回はHADOOPを使ったスケールアウトアプローチ共同開発事業を参画しています。

hadoop

Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェアです。 Apacheプロジェクトの元で、Hortonworks社、米国Yahoo!社、Cloudera社といった初期から参加していた企業に加えて、 Intel社、Microsoft社などより多くの企業のメンバーによって開発が続けられています。

Hadoopは、Google社が論文として公開した、Google社内の以下の基盤技術をオープンソースとして実装したものを利用しています。

  • GFS (Google File System : Google社の分散ファイルシステム)
  • Google MapReduce (Google社での分散処理技術)
    検索サービスで扱うWebページの情報をGFSに保存して、検索用インデックスをGoogle MapReduceで生成する などの用途で利用されました。 これらの論文をもとに、Doug Cutting氏(現在、Apacheコミュニティの議長)を中心としたメンバーがJavaベースで開発したものが始まりです。 Doug氏たちは、Hadoopとして以下のコンポーネントを開発しました。そして、現在に至っています。
  • HDFS (Hadoop Distributed File System : Hadoop分散ファイルシステム)
  • Hadoop MapReduce Framework(Hadoop MapReduceフレームワーク)
    なお、Hadoopという名前は、Doug氏のお子さんが持っていたお気に入りの象のぬいぐるみの名前を利用しています。
Stay In Touch

Be the first to know about new arrivals and promotions