SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾUCHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU

Ngày nhận bài: 20-07-2020

Ngày duyệt đăng: 10-09-2020

DOI:

Lượt xem

3

Download

1

Chuyên mục:

KỸ THUẬT VÀ CÔNG NGHỆ

Cách trích dẫn:

Hồng, P. (2024). SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾUCHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU. Tạp Chí Khoa học Nông nghiệp Việt Nam, 19(4), 452–461. http://testtapchi.vnua.edu.vn/index.php/vjasvn/article/view/811

SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾUCHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU

Phan Thị Thu Hồng (*) 1

  • 1 Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
  • Từ khóa

    Chuỗi thời gian một chiều, dữ liệu thiếu, ước lượng giá trị thiếu, độ tương tự

    Tóm tắt


    Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo khoảng lớn. Do đó,xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp, phân tích dữ liệu... Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khidữ liệu có cả hai tính chất mùa vụ và xu hướng.

    Tài liệu tham khảo

    Allison P.D. (2001).Missing Data, Quantitative Applications in the Social Sciences, 136.Sage Publication.

    Buuren S. &Groothuis-Oudshoorn K. (2011).Mice: Multivariate imputation by chained equations in R. Journal of statistical software.45(3).

    Bishop C.M. (2006).Pattern Recognition and Machine Learning (Information Science and Statistics).Springer-Verlag New York, Inc., Secaucus, NJ, USA.

    Chan K.S. & Ripley B. (2020). TSA: Time Series Analysis. R package version 1.3. Retrieved from https://CRAN.R-project.org/package=TSA, on March10, 2020.

    Crawford S.L., Tennstedt S.L. & McKinlay J.B. (1995). A comparison of anlaytic methods for non-random missingness of outcome data. J. Clin. Epidemiol. 48(2): 209-219.

    Dong Y. & Peng J. (2013). Principled missing data methods for researchers. SpringerPlus. 2: 222.

    Gelman A. & Hill J. (2006). Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge University Press.

    Ghosh S. & Pahwa P. (2008).Assessing bias associated with missing data from joint Canada/U.S. survey of health: An application, JSM Biometrics.

    Horton N.J. & Kleinman K.P. (2007). Much Ado About Nothing: A Comparison of MissingData Methods and Software to Fit Incomplete Data Regression Models.American Statistical Association.61. 79-90.

    Hyndman R. & Khandakar Y. (2008). Automatic time series forecasting: the forecast package for R., used package in 2020. J. Stat. Softw. pp. 1-22.

    Little R.J.A. & RubinD.B. (2014). Statistical Analysis with Missing Data. John Wiley & Sons. Google-Books-ID: AyVeBAAAQBAJ.

    MoritzS., SardáA., Bartz-BeielsteinT., ZaeffererM. &Stork J. (2015). Comparison of different Methods for Univariate Time Series Imputation in R. arXivpreprint arXiv:1510.03924.

    MolenberghsG., FitzmauriceG., KenwardM.G., VerbekeG. &Tsiatis A. (2014). Handbook of missing data methodology. CRC Press.

    PhanT.T.H., CaillaultE.P. &Bigand A. (2016).Comparative study on supervised learning methods for identifying phytoplankton species, in 2016 IEEE Sixth International Conference on Communications and Electronics (ICCE).pp. 283-288, doi: 10.1109/CCE.2016.7562650.

    PhanT.T.H., Poisson CaillaultE., LefebvreA.&Bigand A. (2017).Dynamic Time Warping-based imputation for univariate time series data, Pattern Recognition Letters.

    Rousseeuw K., Caillault ÉP., Lefebvre A. & Hamad D. (2013). Monitoring system of phytoplankton blooms by using unsupervised classifier and time modeling. In 2013 IEEE International Geoscience and Remote Sensing Symposium - IGARSS.pp. 3962-3965.

    Stekhoven D.J. &Bühlmann P. (2012).MissForest-non-parametric missing value imputation for mixed-type data. Bioinformatics.28(1):112-118.

    Sterne J.A.C., White I.R., Carlin J.B., Spratt M., Royston P., Kenward M.G., Wood A.M. & Carpenter J.R. (2009). Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls.BMJ (Clin. Resear. ed.).

    Sakoe H. &Chiba S. (1978).DynamicProgrammingAlgorithmOptimizationforSpokenWordRecognition.IEEETransactionsOnAcoustics,Speech,AndSignalProcessing. 16:43-49.

    Zeileis A. &Gabor Grothendieck (2005).Zoo: S3 infrastructure for regular and irregular time series. Journal of Statistical Software.14(6):1-27.