سری زمانی چیست؟ انواع، کاربردها و مفاهیم آن

صفحه اصلی > سری زمانی چیست؟ انواع، کاربردها و مفاهیم آن

عرفان رحیمی صادق
20 مرداد 1404
17:57
بدون نظر

دنیای ما مملو از داده‌هایی است که در گذر زمان ثبت می‌شوند؛ از تعداد بازدید روزانه یک وب‌سایت گرفته تا شاخص‌های اقتصادی ماهانه. سری زمانی (Time Series) یک مفهوم و ابزار آماری قدرتمند برای درک، تحلیل و مدلسازی این نوع داده‌ها است. در حقیقت، هر مجموعه‌ای از داده‌ها که در فواصل زمانی معین و پیوسته ثبت شده باشد، یک سری زمانی را شکل می‌دهد. تحلیل این داده‌ها به کسب‌وکارها و متخصصان کمک می‌کند تا الگوهای پنهان در گذشته را کشف کنند، رفتار آینده را پیش‌بینی نمایند و در نهایت، تصمیمات هوشمندانه‌تری اتخاذ کنند.

معرفی سری زمانی

سری زمانی به زبان ساده، مجموعه‌ای از نقاط داده است که به ترتیب زمانی مرتب شده‌اند. ویژگی اصلی و وجه تمایز داده‌های سری زمانی این است که هر مشاهده به مشاهدات قبلی خود وابستگی دارد. این وابستگی زمانی، کلید اصلی در تحلیل و درک این داده‌ها می‌باشد. برای مثال، میزان ترافیک یک وب‌سایت در ساعت ۱۰ صبح امروز، به احتمال زیاد تحت تاثیر ترافیک آن در ساعت ۹ صبح بوده.

برای مصورسازی این داده‌ها، معمولا از نمودار سری زمانی استفاده می‌شود. در این نمودار محور افقی، زمان (مثل ساعت، روز، ماه یا سال) و محور عمودی، مقادیر ثبت‌شده (مانند قیمت، دما، تعداد بازدیدکننده) را نشان می‌دهد. بررسی Time Series از طریق این نمودارها، اولین گام برای شناسایی الگوهای مهمی همچون روند (Trend)، فصلی بودن (Seasonality) و چرخه‌ها (Cycles) است.

درک این الگوها برای هرگونه تحلیل سری زمانی و ساخت یک مدل سری زمانی دقیق، ضروری است. به همین دلیل، آموزش سری زمانی به یکی از مهارت‌های کلیدی برای تحلیلگران داده تبدیل شده تا بتوانند از سری‌های زمانی موجود در داده، بینش‌های ارزشمندی استخراج کنند.

انواع مدل‌های سری زمانی

پس از بررسی اولیه داده‌ها، گام بعدی در تحلیل سری زمانی، انتخاب یک مدل مناسب برای پیش‌بینی آینده است. مدل‌های سری زمانی بسیار متنوع هستند و انتخاب هر یک به ویژگی‌های داده‌ها، مانند وجود روند یا فصلی بودن، بستگی دارد. این مدل‌ها به‌طورکلی به دو دسته اصلی کلاسیک (آماری) و مدرن (مبتنی بر یادگیری ماشین) تقسیم می‌شوند.

۱. مدل‌های کلاسیک (آماری)

این مدل‌ها پایه و اساس علم پیش‌بینی را تشکیل می‌دهند و همچنان کاربرد گسترده‌ای دارند. بسیاری از این مدل‌ها نیازمند آن هستند که داده‌های زمانی ورودی، ایستا (Stationary) باشند. سری زمانی ایستا یعنی ویژگی‌های آماری آن مانند میانگین و واریانس با گذشت زمان ثابت باقی می‌ماند.

مدل میانگین متحرک (Moving Average – MA): این مدل فرض می‌کند که مقدار آینده، تابعی از خطاهای پیش‌بینی گذشته است.
مدل خودرگرسیو (Autoregressive – AR): در این مدل، مقدار آینده به مقادیر گذشته خود وابسته است. به عبارت دیگر، مقادیر قبلی به عنوان متغیرهای ورودی برای پیش‌بینی مقدار بعدی عمل می‌کنند.
مدل ARMA (Autoregressive Moving Average): ترکیبی از دو مدل AR و MA است و از هر دو، یعنی مقادیر گذشته و خطاهای گذشته، برای پیش‌بینی استفاده می‌کند.
مدل ARIMA (Autoregressive Integrated Moving Average): نسخه توسعه‌یافته ARMA برای سری‌های زمانی غیرایستا و یکی از پرکاربردترین مدل‌هاست. بخش Integrated یا یکپارچه در این مدل، با استفاده از فرآیندی به نام تفاضل‌گیری (Differencing)، داده‌ها را به یک سری زمانی ایستا تبدیل می‌کند تا قابل مدلسازی باشند.
مدل SARIMA (Seasonal ARIMA): نسخه پیشرفته‌تر ARIMA است که برای تحلیل داده‌های سری زمانی که دارای الگوهای فصلی هستند، به کار می‌رود.

۲. مدل‌های مدرن (یادگیری ماشین)

با پیشرفت علم داده، الگوریتم‌های یادگیری ماشین نیز به‌طور گسترده‌ای برای پیش‌بینی داده‌های زمانی استفاده می‌شوند. این مدل‌ها اغلب پیچیده‌تر هستند اما می‌توانند الگوهای غیرخطی و پیچیده را بهتر شناسایی کنند.

شبکه‌های عصبی بازگشتی (Recurrent Neural Networks – RNN): مدل‌هایی مانند LSTM و GRU به‌طورخاص برای پردازش داده‌های متوالی طراحی شده‌اند و به‌دلیل داشتن حافظه، عملکرد فوق‌العاده‌ای در تحلیل سری‌های زمانی دارند.
مدل Prophet: کتابخانه‌ای که توسط فیسبوک توسعه داده شده و فرآیند ساخت مدل سری زمانی را بسیار ساده و خودکار می‌کند. این مدل برای داده‌هایی که دارای اثرات فصلی قوی و روزهای خاص (مانند تعطیلات) هستند، بسیار مناسب است.
XGBoost و LightGBM: این الگوریتم‌های مبتنی بر درخت تصمیم (Decision tree)، با مهندسی ویژگی مناسب، می‌توانند به مدل‌های قدرتمندی برای پیش‌بینی تبدیل شوند.

اجرای این مدل‌های پیچیده و پردازش حجم بالای داده‌ها، اغلب نیازمند منابع پردازشی قوی همچون سرور مجازی پایتون است که می‌تواند این نیاز را به‌خوبی برطرف کند.

تجزیه و تحیل داده‌های زمانی

یکی از اساسی‌ترین مراحل پس از استخراج داده‌ها از یک دیتابیس، تجزیه و تحلیل سری زمانی است که به ما کمک می‌کند اجزای تشکیل‌دهنده آن را کشف کنیم. این کار درک عمیق‌تری از الگوهای موجود در داده‌های زمانی به ما می‌دهد. فرآیند تحلیل سری زمانی معمولا شامل شناسایی چهار مولفه اصلی زیر است:

روند (Trend): جهت‌گیری کلی و بلندمدت داده‌ها را نشان می‌دهد. این مولفه به ما می‌گوید که مقادیر در طول زمان به‌صورت‌کلی در حال افزایش، کاهش یا ثابت ماندن هستند.
فصلی بودن (Seasonality): به الگوهای تکرارشونده و قابل پیش‌بینی در فواصل زمانی ثابت اشاره دارد. این الگوها می‌توانند به صورت روزانه، هفتگی یا سالانه رخ دهند.
چرخه (Cycle): مانند مولفه فصلی، به نوسانات و الگوهای تکرارشونده اشاره دارد، با این تفاوت که دوره تناوب آن ثابت نیست و معمولا در بازه‌های زمانی طولانی‌تر (بیش از یک سال) رخ می‌دهد.
باقیمانده یا نویز (Residual/Noise): نوسانات نامنظم و تصادفی موجود در داده‌های سری زمانی است که پس از حذف سه مولفه دیگر باقی می‌ماند. این بخش غیرقابل پیش‌بینی است و هیچ الگوی مشخصی را دنبال نمی‌کند.

دو رویکرد اصلی برای ترکیب این مولفه‌ها و تجزیه یک سری زمانی وجود دارد:

مدل افزایشی (مقدار = روند + فصلی + چرخه + باقیمانده): زمانی به‌کار می‌رود که دامنه نوسانات فصلی و چرخه‌ای در طول زمان ثابت باشد.
مدل ضربی (مقدار = روند × فصلی × چرخه × باقیمانده): برای مواردی مناسب است که دامنه نوسانات با تغییر روند، تغییر کند (مثلا با افزایش فروش، نوسانات فصلی نیز بزرگ‌تر شوند).

کاربرد تحلیل سری زمانی

تحلیل سری زمانی تنها یک مفهوم تئوری نیست، بلکه ابزاری عملی با کاربردهای گسترده در صنایع و حوزه‌های مختلف است:

اقتصاد و امور مالی: از پیش‌بینی قیمت سهام، نرخ ارز و شاخص‌های بورس گرفته تا تحلیل تولید ناخالص داخلی (GDP) و نرخ تورم و همینطور تحلیل ریسک و نوسانات بازار با مدل‌های سری زمانی ایستا، همگی به کمک مدل‌های سری زمانی انجام می‌شوند.
پیش‌بینی فروش و مدیریت موجودی: کسب‌وکارها از داده‌های سری زمانی فروش گذشته برای پیش‌بینی تقاضای آینده استفاده می‌کنند. این پیش‌بینی به آن‌ها کمک می‌کند تا موجودی انبار خود را مدیریت کنند.
هواشناسی و علوم محیطی: پیش‌بینی وضعیت آب و هوا یک نمونه کلاسیک از بررسی سری زمانی است. ایستگاه‌های هواشناسی داده‌های مربوط به دما، رطوبت، فشار هوا و سرعت باد را در طول زمان ثبت و با تحلیل این داده‌های زمانی، وضعیت جوی روزهای آینده را پیش‌بینی می‌کنند.
پزشکی و سلامت: در علم پزشکی، سیگنال‌های حیاتی بیمار مانند نوار قلب (ECG) و نوار مغز (EEG) نمونه‌های بارز داده‌های سری زمانی هستند. تحلیل این داده‌ها به پزشکان در تشخیص بیماری‌ها، نظارت بر وضعیت بیمار و پیش‌بینی حملات ناگهانی کمک می‌کند.
نگهداری و تعمیرات پیشگیرانه: سنسورهای موجود در دستگاه‌های صنعتی و خانگی به‌طورمداوم داده تولید می‌کنند. با تحلیل این داده‌های سری زمانی، می‌توان قبل از وقوع خرابی در یک قطعه یا دستگاه، آن را پیش‌بینی و از هزینه‌های سنگین تعمیرات و توقف تولید جلوگیری نمود.
علوم داده و هوش مصنوعی: شامل مواردی همچون آموزش مدل‌های یادگیری ماشین با داده‌های سری زمانی برای پیش‌بینی رفتار کاربران، بار سرور یا مصرف انرژی و همینطور استفاده از نمودار سری زمانی برای پایش کیفیت داده و کشف ناهنجاری‌ها می‌شود.

تفاوت سری زمانی با رگرسیون

با وجود اینکه هم سری زمانی و هم رگرسیون در پیش‌بینی و تحلیل داده‌ها استفاده می‌شوند، اما تفاوت‌های بنیادی میان آن‌ها وجود دارد:

ویژگی‌ها	سری زمانی	رگرسیون
ساختار داده‌ها	داده‌ها به ترتیب زمانی و معمولا با فواصل مساوی ثبت می‌شوند.	داده‌ها می‌توانند مستقل و بدون ترتیب زمانی باشند.
وابستگی مشاهدات	مشاهدات معمولا به مقادیر گذشته خود وابسته‌اند.	فرض بر این است که مشاهدات مستقل از یکدیگر هستند.
هدف اصلی	مدل‌سازی الگوهای زمانی مانند روند، فصلی بودن و چرخه	بررسی رابطه بین متغیر وابسته و متغیر(های) مستقل
متغیرهای ورودی	معمولا مقادیر گذشته همان متغیر یا چند متغیر زمانی دیگر	یک یا چند متغیر توضیحی که ممکن است زمانی یا غیرزمانی باشند
روش‌های رایج	ARIMA، SARIMA، VAR، LSTM	رگرسیون خطی، لجستیک، رگرسیون چندمتغیره

به بیان ساده، سری‌های زمانی بر بعد زمان و وابستگی بین مشاهدات تکیه دارند، در‌حالی‌که رگرسیون بیشتر به ارتباط بین متغیرها بدون الزام ترتیب زمانی توجه می‌کند. بنابراین، اگر داده‌های شما وابستگی زمانی دارند، استفاده از مدل‌های سری زمانی در مقایسه با رگرسیون کلاسیک دقت بیشتری خواهد داشت.

چالش‌های داده‌های سری زمانی

کار با داده‌های سری زمانی همیشه ساده نیست و تحلیلگران در این مسیر با چالش‌های منحصربه‌فردی روبرو می‌شوند. شناخت این چالش‌ها اولین قدم برای غلبه بر آن‌ها و ساخت یک مدل سری زمانی دقیق و قابل اعتماد است.

ایستا نبودن: بسیاری از مدل‌های کلاسیک، مانند ARIMA، نیازمند داده‌های ایستا هستند؛ یعنی میانگین و واریانس آن‌ها در طول زمان ثابت بماند. اما اکثر داده‌های سری زمانی در دنیای واقعی (مانند قیمت سهام) ایستا نیستند و روند یا فصلی می‌باشند.
داده‌های پرت: یک رویداد غیرمنتظره مانند یک بحران اقتصادی یا یک کمپین تبلیغاتی موفق می‌تواند باعث ایجاد نقاط پرت در داده‌ها شود. این نقاط می‌توانند مدل سری زمانی را به‌شدت تحت تاثیر قرار داده و آن را از مسیر اصلی منحرف کنند.
داده‌های گمشده: وجود داده‌های ناقص، به‌ویژه در فواصل زمانی نامنظم، باعث کاهش دقت پیش‌بینی می‌شود.
نویز بالا: در برخی از داده‌ها، بخش تصادفی و غیرقابل پیش‌بینی (نویز) آنقدر بزرگ است که تشخیص سیگنال اصلی (روند و فصلی بودن) را دشوار می‌کند.
فصلی بودن چندگانه: برخی سری‌های زمانی دارای الگوهای فصلی متعددی هستند. برای مثال، میزان مصرف برق یک شهر ممکن است یک الگوی روزانه (پیک مصرف در عصر) و یک الگوی هفتگی (مصرف کمتر در آخر هفته‌ها) داشته باشد. مدلسازی همزمان این الگوهای تودرتو، پیچیده و نیازمند تکنیک‌های پیشرفته‌تری است.

پایگاه داده سری زمانی چیست؟

پایگاه داده سری زمانی (TSDB) نوعی پایگاه داده بهینه‌سازی‌شده برای ذخیره‌سازی، فشرده‌سازی و بازیابی بهینه داده‌های زمانی یا نقاط داده‌ای است که یک برچسب زمانی (Timestamp) دارند. این پایگاه‌ها به گونه‌ای طراحی شده‌اند که:

داده‌ها را بر اساس زمان به‌صورت شاخص‌گذاری (Indexing) و فشرده‌سازی ذخیره کنند.
قابلیت پردازش سریع حجم عظیمی از داده‌های زمانی را فراهم کنند.
ابزارهای داخلی برای رسم نمودار سری زمانی، بررسی سری زمانی و انجام محاسبات آماری داشته باشند.
به‌صورت خودکار داده‌های قدیمی را حذف یا خلاصه‌سازی کنند.

برخی از از پایگاه داده‌های معروف سری زمانی عبارتند از:

پایگاه داده سری زمانی	توضیحات
InfluxDB	متن‌باز، محبوب در اینترنت اشیاء و مانیتورینگ سیستم‌ها
TimescaleDB	توسعه‌ای بر PostgreSQL با پشتیبانی از داده‌های سری زمانی
Prometheus	مناسب برای پایش سیستم‌ها و جمع‌آوری داده‌های متریک

در بسیاری از پروژه‌ها، داده‌های سری زمانی از حسگرها، سیستم‌های مالی، یا گزارش‌های کاربردی جمع‌آوری و در یک TSDB ذخیره می‌شوند تا بتوان تحلیل و مدل‌سازی را به‌سرعت انجام داد.

استفاده از پایتون در تحلیل سری زمانی

پایتون (Python) به‌دلیل اکوسیستم غنی کتابخانه‌ها و سادگی سینتکس، یکی از محبوب‌ترین زبان‌ها برای تحلیل سری‌های زمانی است. هر آموزش سری زمانی با پایتون، معمولا با آشنایی با کتابخانه‌های کلیدی آن که در ادامه معرفی می‌کنیم، همراه است.

کتابخانه Pandas

این کتابخانه، نقطه شروع کار با هر نوع داده‌ای در پایتون است. قابلیت‌های کلیدی کتابخانه Pandas شامل موارد زیر می‌شود:

ایندکس زمانی (DatetimeIndex): امکان خواندن و کار با داده‌هایی که برچسب زمانی دارند.
نمونه‌برداری مجدد (Resampling): تبدیل آسان بازه‌های زمانی داده‌ها (نظیر تبدیل داده‌های روزانه به ماهانه)
پنجره‌های متحرک (Rolling Windows): محاسبه آسان آمارهایی مانند میانگین متحرک

کتابخانه‌های Matplotlib و Seaborn

اولین قدم در بررسی سری زمانی، مصورسازی آن است. کتابخانه‌های Matplotlib و Seaborn ابزارهای اصلی برای رسم انواع نمودار سری زمانی هستند. با استفاده از آن‌ها می‌توان به سادگی روند، الگوهای فصلی و نقاط پرت را به‌صورت بصری تشخیص داد.

کتابخانه Statsmodels

این کتابخانه قلب تپنده مدل‌های سری زمانی کلاسیک در پایتون است. Statsmodels مدل‌های آماری مانند AR، MA، ARMA، ARIMA و SARIMA را به‌صورت کامل پیاده‌سازی می‌کند. همچنین، ابزارهای لازم برای تجزیه سری زمانی و انجام آزمون‌های آماری در این کتابخانه وجود دارد.

کتابخانه Scikit-learn

اگرچه Scikit-learn به‌طور تخصصی برای سری‌های زمانی طراحی نشده، اما برای پیش‌پردازش داده‌ها و استفاده از الگوریتم‌های یادگیری ماشین عمومی (مانند رگرسیون خطی یا جنگل تصادفی) در مسائل پیش‌بینی، بسیار کاربردی است.

کتابخانه Prophet

کتابخانه‌ای که توسط فیسبوک (متا) توسعه داده شده و فرآیند پیش‌بینی را بسیار ساده می‌کند. این کتابخانه به‌طورخودکار روند و فصلی بودن را تشخیص می‌دهد و برای افراد غیرمتخصص نیز بسیار مناسب است.

TensorFlow و PyTorch

برای پیاده‌سازی مدل‌های سری زمانی پیچیده مبتنی بر یادگیری عمیق، مانند شبکه‌های عصبی بازگشتی (LSTM و GRU)، از دو کتابخانه قدرتمند TensorFlow و PyTorch استفاده می‌شود.

جمع‌بندی

سری زمانی، به مجموعه‌ای از داده‌های ثبت‌شده در فواصل زمانی منظم گفته می‌شود که ویژگی اصلی آن، وابستگی مشاهدات به یکدیگر در طول زمان است. هدف اصلی، تحلیل الگوهایی چون روند و فصلی بودن برای پیش‌بینی آینده است. برای این کار، از مدل‌های متنوعی همچون مدل‌های آماری کلاسیک مانند ARIMA و مدل‌های مدرن یادگیری ماشین نظیر LSTM استفاده می‌شود.

با وجود کاربردهای گسترده در اقتصاد و صنعت، چالش‌هایی مانند داده‌های گمشده، نقاط پرت و ایستا نبودن، دقت مدل‌ها را تهدید می‌کند. امروزه، اکوسیستم پایتون با کتابخانه‌هایی چون Pandas و Statsmodels و زیرساخت‌های تخصصی مانند پایگاه داده‌های سری زمانی (TSDB)، ابزارهای استاندارد برای مدیریت، تحلیل و مدلسازی این داده‌ها هستند.

سوالات متداول

داده‌های سری زمانی چیست؟

داده‌های سری زمانی به مجموعه‌ای از مشاهدات گفته می‌شود که به‌ترتیب زمانی و در فواصل معین (مانند روزانه یا ساعتی) ثبت شده‌اند.

برای تحلیل داده‌های سری زمانی از چه تکنیک‌هایی استفاده می کنند؟

تحلیل این داده‌ها با شناسایی الگوهایی مانند روند و فصلی بودن و سپس استفاده از مدل‌های آماری مانند ARIMA یا الگوریتم‌های یادگیری ماشین نظیر LSTM برای پیش‌بینی آینده انجام می‌شود.

تفاوت سری زمانی و رگرسیون چیست؟

تفاوت اصلی سری زمانی و رگرسیون، در وابستگی داده‌ها است؛ در سری زمانی ترتیب و وابستگی داده‌ها به گذشته اهمیت دارد، اما در رگرسیون داده‌ها مستقل فرض شده و ترتیب آن‌ها مهم نیست.