Splunk

この記事は約8分で読めます。
sponsored link

Splunkとは

Splunk (スプランク) とは

Splunkとは「ビッグデータ(構造化/非構造化)の収集/蓄積→*インデックス化/前処理→分析→可視化をサポートするデータプラットフォーム」です。
インデックス化:データをイベントを分割→タイムスタンプを付与→フィールド抽出→アクション実行。

他のデータ活用製品と大きく異なるのは「データ収集/蓄積」「構造化/非構造化データの連携」をサポートしているという点で、主にマシンデータ (非構造化データ) を扱うエンタープライズ向けの製品となります。


Source: https://www.splunk.com/ja_jp/software/splunk-cloud.html

企業情報

Splunkは2012年に上場 (NASDAQ: $SPLK) し、約100カ国 – 約20,000社*の顧客を抱える大手企業です。
※数値は2021/3/28時点のものです。

日本ではあまり馴染みがありませんが、アメリカの有名雑誌 Fortune や世界有数のリサーチ会社 Gartner のランキングで何度も選出されており、セキュリティやマシンデータの領域では世界トップクラスの知名度を誇ります。

受賞

5つの特徴

Splunkでは後述する5つの特徴により、あらゆるデータに価値を見出すことができます。

ストリーミング処理

Splunkは「ストリーミング処理」(ミリ秒単位でシステムのデータを収集/処理) を得意としているため、センサー/セキュリティ/ネットワーク/IoT など「システム上の脅威を瞬時に検知し管理者へアラート」することができます。

リアルタイムで条件にあったイベントを検出し、データの傾向からセキュリティ対策やビジネスへの活用を促進します。GUIを活用した “ローコーディング” であることや機械学習を活用した “自動パイプライン” なども特徴的です。


Source: https://www.splunk.com/ja_jp/software/stream-processing.html

非構造化データ × 構造化データ

Splunkはシステムログのような「非構造化データ」を得意とする一方、Excel, CSV といった一般的な構造化データにも対応しています。

そのため、従来のツールでは難しかった「マシンデータ × ビジネスデータ」を実現し、一見無関係と思われるデータを繋ぎ合わせることで新たなインサイトを得ることもできるようになるのです。

■ログデータの検索例
66.35.255.255-09/Sep/2011:14:58:35]SESSIONID= SD3SL3ADFF5 HTTP 1.1″ 400 1645 “http:// www.myflowershop.com?category_̲id=SURPRISE” “Mozilla Macintosh/OSX‒10)
→ IP address:「66.35.255.255」
→ Timestamp:「09/Sep/2011:14:58:35」
→ Session:「SD3SL3ADFF5」
→ Website:「http:// www.myflowershop.com」
→ Category:「SURPRISE」
→ Device:「Mozilla Macintosh/OSX‒10」

ログの形式を問わない柔軟な分析

Splunkは一度テキスト化しそれを高度にインデックス化するという仕組みのため「ログの形式を問わない柔軟な分析」が可能です。

これにより異なるメーカーの機器をスムーズに連携したり、旧型から新型へのシステム変更にも柔軟に対応することができます。大抵、大規模なシステム変更にはエンジニアリソース (数ヶ月) や基盤の改築コスト (数百万〜数千万円) がかかりますが、Splunkを導入することでこれらを削減できるのです。

またセキュリティの分野でいえば、通常のセキュリティログに加えて メール/Webサイト/入館データ などを横断的に分析できるため「潜在的な脅威」へも対応することができます。(e.g., 標的型攻撃, ATP攻撃)

動的スキーマ技術

Splunkには動的スキーマ技術 (schema on the fly) =「オリジナルデータ (数TB) を全行保持したままアクセス時にオンメモリで構造化する技術」があり、アジャイルにデータを活用することができます。

◆ 動的スキーマの仕組み

  1. SPL (Splunkのサーチ言語) を用いたクエリの実行
  2. ディスクからインデックス化されたデータへアクセス
  3. 取得したデータをオンメモリで構造化
  4. 結果の表示

これにより、コンサルタントが数ヶ月かけて行っている上流工程 (要件定義/モデル設計/スキーマ設計) などが不要になり、タイムリーなビジネス要件に対応することができます。

All in One

冒頭でもお伝えしましたがSplunkは「データの収集から分析/可視化まで、データ活用に必要なすべての機能が1つにまとまっている」ため、データ基盤からBIツールまで他のツールがすべて不要となります。

また、これまでは Splunk Enterprise という自社の環境にSplunkプラットフォームを構築するというのが一般的でしたが、最近では Splunk Cloud の登場によりスピーディに導入し、柔軟に拡張できるようになりました。

もちろんSaaS製品なので基盤のメンテナンスを行う必要もなく、ユーザー自身が (分析業務ではなく) 本業のビジネスに軸足をおけるといった点も魅力の1つです。


Source: https://www.splunk.com/ja_jp/software/splunk-enterprise.html

オブザーバビリティ (可観測性)

Splunkのキーワードの1つに「オブザーバビリティ」が挙げられます。

これは一般的に “システムの出力を調査することによってその内部の状態を監視すること” と定義されますが、Splunk では「ビジネス課題を解決するするためのデータを収集しようというマインドセット」という意味で用いられます。

オブザーバビリティの真の意味は「メトリクス、トレース、ログの収集と保存」という行為ではありません。「ビジネスに関する疑問の答えを明らかにするためのデータを収集しよう」というマインドセットです。オブザーバビリティで重要なのはアプリケーションパフォーマンス監視やインフラ監視ではありません(それらもオブザーバビリティに含まれますが)。本当に重要なのは、すべてのデータを取り込むことの必要性を理解することです。実際のユーザーエクスペリエンスのメトリクスから、マーケティングキャンペーン、季節ごとのトラフィックの変化、倉庫スタッフの病欠の日数まで、「すべての」データです。 

オブザーバビリティは、ビジネスやアプリケーションに関するデータの「信頼できる唯一の情報源」を構築し、それを開発者、運用チーム、製品チーム、経営幹部を含む組織の全員で共有することが必要だと認識するマインドセットなのです。ビジネスは何百万ものデータポイントで構成されます。オブザーバビリティは、各システムのすべてのデータを収集し、それらのデータに基づいて、アプリケーションという技術を超えたビジネスに関する疑問を解き明かします。

Source「オブザーバビリティ:その真の意味」

従来のデータ活用ツールでは、既存のデータを分析/可視化するという点には長けていますが、肝心の「データをどこから収集しどこに蓄積するか」という根本の課題には応えられていません。

Splunkではその課題を解決する機能を有しており、それがオブザーバビリティというマインドセットを組織全体に浸透させ、データドリブン文化の醸成につながるのです。

おまけ

Splunkの由来

Splunkという社名の由来は『Spelunking(=深海探索)』です。

奥深く人力では制御しきれない「ビッグデータ」を深海にたとえ、その中から本当に必要な「インサイト」を探索するという意味があるのではないでしょうか。

Pwny (ポニー) 誕生の起源

Splunkには『ポニー (写真左下)』という愛されキャラがいます。

時は2006年、Splunkにはミッチという極めて優秀なUNIXエンジニアがいたのですが、彼は性格に難があり同僚との関係もあまり良くありませんでした。

能力が高いにもかかわらず彼はフルタイム(正社員)になることを拒み、自分の時間を作ることを優先しました。

そこでCEOのスワンが「君が欲しいのは何だ?どうしたらフルタイムになってくれるんだ?もっと金が欲しいのか?機械が欲しいのか?」と尋ねたところ、半笑いで「ポニー」と答えました。

とはいえ実際にオフィスでポニー(小馬)を育てるのは難しいので、スワンは高さ1m規模のポニーの模型 (実物を模したぬいぐるみ) をミッチにプレゼントし、そこからポニーがSplunkの公式キャラクターとなったそうです。

Source: The story of Buttercup, the Splunk Pwny

【初代】Splunk の長期インターン受かったニキ
はじめに 私は慶應義塾大学の学部4年生で、2021年の3月に Splunk Japan (スプランクジャパン) の長期インターンに応募し、6月に合格をいただきました。 Splunk Japan...