Résumé de section

    • Brève description

      Le cours vise à initier les étudiants aux concepts et questionnements propres aux données séquentielles, leur représentation et leur analyse. Les applications incluent la fouille des motifs séquentiels dans les bases de données transactionnelles, la fouille des séries temporelles et la fouille des motifs séquentiels pour les données biologiques.

    • Public cible

      Étudiants en informatique, Master 2, spécialité Système d'Information, Optimisation et Décision (SIOD).

    • Evaluation, Crédits et coefficient 

      Mode d'évaluation: 50% examen 50% contrôle TP

      Volume horaire: Une séance de cours (1h30) et une séance de travaux pratique (1h30) 

      Crédit: 4

      Coefficient: 2

    • Fiche-contact

      Enseignante: Dr. AKROUR Djouher

      Contact: djouher.akrour@univ-biskra.dz

      Heure de disponibilité: touts les Lundi, Mercredi et Jeudi à partir de 8h00 au laboratoire LESIA. 

        • Objectifs généraux

          1. Comprendre les concepts fondamentaux de l'analyse de données séquentielles.

          2. Maîtriser les outils et techniques pour modéliser et analyser des données séquentielles.

          3. Appliquer ces techniques à des problèmes réels dans divers domaines (finance, biologie, linguistique, etc.).

          4. Développer une pensée critique pour interpréter les résultats et choisir les méthodes appropriées.

        • Prérequis

          1. Connaissances de base en statistiques.

          2. Familiarité avec un langage de programmation (e.g., Python).

          3. Notions de base en algorithmique et structures de données.

          4. Expérience préalable avec la fouille de données.

        • Chapitre 1 : Introduction


          1. Introduction
          2. Types de séquences
          3. Domaines d’application
          4. Visualisation de séquences
          5. Représentation de séquences


          Chapitre 2 :  Fouille des motifs séquentiels dans les bases de données transactionnelles


          1. Introduction
          2. Concepts de base (Séquence, sous-séquence, support, …)
          3. Visualisation de séquences (i-plot, f-plot, d-plot)
          4. Caractéristiques des séquences (Longitudinale et transversale)
          5. Mesure de similarité entre séquences (Sac de caractère, P-spectrum, LCP, LCS)
          6. Fouille des motifs séquentiels (AprioriAll, GSP, SPADE)
          7. Motifs séquentiels avec contraintes
          8. Analyse de périodicité dans les motifs séquentiels

          Chapitre 3: Fouille de séries temporelles


          1. Définition
          2. Domaines d’applications
          3. Indices descriptifs d’une série temporelle
          4. Composants d’une série temporelle
          5. Estimation de la tendance
          6. Mesures de similarité
          7. Recherche de similarité dans une série temporelle
          8. Recherche de motifs fréquents dans une série temporelle
          9. Clustering des séries temporelles
          10. Requête par contenu des séries temporelles
          11. Classification des séries temporelles
          12. Détection d’anomalies dans les séries temporelles


          Chapitre 4: Fouille des motifs séquentiels pour les données biologiques


          1. Bioinformatiques
          2. Les séquences biologiques
          3. Évolution des séquences biologiques (Mutation et Séquences homologues)
          4. Alignement des Séquences Biologiques
          5. Méthodes d’évaluation de l’alignement
          6. Algorithme d’alignement (L'algorithme Needleman-Wunsch)
          7. Analyse des Séquences Biologiques (Chaîne de Markov et Modèle de Markov Cachées)

    • Ce test vise à évaluer votre niveau de connaissances dans le domaine de fouille de données et des statistiques et à identifier vos éventuelles lacunes à revoir pour pouvoir démarrer et comprendre le cours en question.

    • Ouvert le : mercredi 12 février 2025, 00:00
      À rendre : mercredi 19 février 2025, 00:00

      L'outil qui sera utilisé durant ce cours est le langage R.

      R est un langage de programmation interactif interprété et orienté objet contenant une très large collection de méthodes statistiques et des facilités graphiques importantes. 

      Ce TP vous permettra de vous familiariser avec R et apprendre comment manipuler, importer et exporter en fichier CSV et représenter graphiquement les données.

    • Objectifs du chapitre:

      1. Comprendre les concepts fondamentaux des données séquentielles.

      2. Identifier les types de séquences et leurs caractéristiques.

      3. Explorer les domaines d'application des données séquentielles.

      4. Apprendre à visualiser et représenter les données séquentielles pour en extraire des informations utiles.

      5. Découvrir les techniques de base pour l'analyse des séquences, comme la fouille de motifs séquentiels.

    • Ce chapitre introduit les bases de l'analyse de données séquentielles, en mettant l'accent sur les concepts clés, les types de séquences, et leurs applications pratiques.

    • Références:

      Vous pouvez consulter ces sources supplémentaires pour approfondir vos connaissances sur le data mining:

      • Aggarwal, C. (2015). Data Mining The TextBook.
      • Han, J., Kamber, M., & Pei, J. (2011). The Morgan Kaufmann series in data management systems. Data mining concepts and techniques.
        • Ouvert le : mercredi 12 février 2025, 00:00
          À rendre : mercredi 19 février 2025, 00:00

          Dans ce TP, vous apprendrez à manipuler les données et réaliser des statistique descriptive avec le langage R.

          Vous pouvez consulter cet article pour apprendre davantage sur R:

          • Gabadinho, A., Ritschard, G., Studer, M., & Müller, N. S. (2011). Mining sequence data in R with the TraMineR package. A User’s Guide. Department of Econometrics and Laboratory of Demography, University of Geneva
        • Ce test évalue votre compréhension et votre acquisition des connaissances du chapitre 1.

    • Objectifs du chapitre

      1. Comprendre les concepts de base des séquences, sous-séquences, et le calcul du support.

      2. Maîtriser les techniques de visualisation des séquences.

      3. Analyser les caractéristiques des séquences : longitudinales vs transversales.

      4. Apprendre à mesurer la similarité entre séquences.

      5. Découvrir les algorithmes de fouille de motifs séquentiels : AprioriAll, GSP et SPADE.

      6. Explorer les motifs séquentiels avec contraintes et l'analyse de périodicité dans les motifs séquentiels.

    • Ce chapitre approfondit les concepts de l'analyse de données séquentielles en introduisant des notions avancées. Il explore les caractéristiques des séquences et les méthodes de calcul de similarité. Le chapitre présente également des algorithmes de fouille de motifs séquentiels.

    • Références:

      Vous pouvez consulter ces sources supplémentaires pour approfondir vos connaissances sur l'extraction de motifs séquentiels :

      • Zaki, M. J. (2001). SPADE: An efficient algorithm for mining frequent sequences. Machine learning, 42, 31-60.
      • Mooney, C. H., & Roddick, J. F. (2013). Sequential pattern mining--approaches and algorithms. ACM Computing Surveys (CSUR), 45(2), 1-39.
      • Fradkin, D., & Mörchen, F. (2015). Mining sequential patterns for classificationKnowledge and Information Systems, 45, 731-749.
      • Aoga, J. O., Guns, T., & Schaus, P. (2017). Mining time-constrained sequential patterns with constraint programming. Constraints, 22, 548-570.
      • Fournier-Viger, P., Lin, J. C. W., Kiran, R. U., Koh, Y. S., & Thomas, R. (2017). A survey of sequential pattern mining. Data Science and Pattern Recognition, 1(1), 54-77. 
    • Objectifs du chapitre

      1. Comprendre les séries temporelles et identifier leurs composantes et leurs indices descriptifs.
      2. Analyser les tendances.
      3. Mesurer la similarité entre les séries temporelles.
      4. Rechercher des motifs fréquent.
      5. Classifier des séries temporelles et effectuer du clustering.
    • Ce chapitre explore l’analyse des séries temporelles. Il couvre les indices descriptifs, l’identification des tendances, les mesures de similarité, ainsi que les méthodes de classification, de clustering et de détection d’anomalies.

    • Références

      Vous pouvez consulter ces sources supplémentaires pour approfondir vos connaissances sur l'analyse des séries temporelles:

      • Patel, P., Keogh, E., Lin, J., & Lonardi, S. (2002, December). Mining motifs in massive time series databases. In 2002 IEEE International Conference on Data Mining, 2002. Proceedings. (pp. 370-377). IEEE.
      • Gaudin, R., & Nicoloyannis, N. (2005, January). Apprentissage non supervisé de séries temporelles à l'aide des k-means et d'une nouvelle méthode d'agrégation de séries. In EGC (pp. 201-212). 
        • Ouvert le : vendredi 14 février 2025, 00:00
          À rendre : vendredi 21 février 2025, 00:00

          Vous apprendrez dans ce travail comment manipuler, analyser et visualiser les données de séries temporelles en R. Vous apprendrez également comment estimer les tendances et faire des prévisions.

        • Ce test évalue votre compréhension et votre acquisition des connaissances du chapitre 3.

    • Objectifs du chapitre 

      1. Comprendre les bases de la bio-informatique.
      2. Analyser l'évolution des séquences et identifier les séquences homologues.
      3. Réaliser et évaluer des alignements de séquences.
      4. Mettre en œuvre l’algorithme de Needleman-Wunsch.
      5. Utiliser les modèles probabilistes pour l'analyse des séquences biologiques.
    • Ce chapitre traite l’analyse des séquences biologiques. Il aborde les mutations, les alignements de séquences, les matrices de substitution et les algorithmes d’alignement. Il introduit également les modèles probabilistes utilisés pour identifier des régions fonctionnelles dans les génomes.

    • Références

      Vous pouvez consulter ces sources supplémentaires pour approfondir vos connaissances sur l'analyse et l'alignement des séquences biologiques:

      • Rosenberg, M. S. (Ed.). (2009). Sequence alignment: methods, models, concepts, and strategies. Univ of California Press.
      • Pearson, W. R. (2013). An introduction to sequence similarity (“homology”) searching. Current protocols in bioinformatics, 42(1), 3-1.
        • Ouvert le : vendredi 14 février 2025, 00:00
          À rendre : vendredi 21 février 2025, 00:00

          Nous allons utiliser dans ce TP les libraires “Biostrings” et “DECIPHER” pour aligner les séquences biologiques et analyser les motifs séquentiels. 

        • Ce test évalue votre compréhension et votre acquisition des connaissances du chapitre 4.

    • Ce test de sortie est noté pour évaluer votre compréhension globale et valider vos acquis et vous donner une idée de votre niveau de maîtrise du sujet.

    • Livres

      [1] Aggarwal, C. (2015). Data Mining The TextBook.

      [2] Han, J., Kamber, M., & Pei, J. (2011). The Morgan Kaufmann series in data management systems. Data mining concepts and techniques.

      [3] Rosenberg, M. S. (Ed.). (2009). Sequence alignment: methods, models, concepts, and strategies. Univ of California Press.

      Articles

      [4] Patel, P., Keogh, E., Lin, J., & Lonardi, S. (2002, December). Mining motifs in massive time series databases. In 2002 IEEE International Conference on Data Mining, 2002. Proceedings. (pp. 370-377). IEEE.

      [5] Gaudin, R., & Nicoloyannis, N. (2005, January). Apprentissage non supervisé de séries temporelles à l'aide des k-means et d'une nouvelle méthode d'agrégation de séries. In EGC (pp. 201-212).

      [6] Gabadinho, A., Ritschard, G., Studer, M., & Müller, N. S. (2011). Mining sequence data in R with the TraMineR package. A User’s Guide. Department of Econometrics and Laboratory of Demography, University of Geneva.

      [7] Zaki, M. J. (2001). SPADE: An efficient algorithm for mining frequent sequences. Machine learning, 42, 31-60.

      [8] Mooney, C. H., & Roddick, J. F. (2013). Sequential pattern mining--approaches and algorithms. ACM Computing Surveys (CSUR), 45(2), 1-39.

      [9] Fradkin, D., & Mörchen, F. (2015). Mining sequential patterns for classification. Knowledge and Information Systems, 45, 731-749.

      [10] Aoga, J. O., Guns, T., & Schaus, P. (2017). Mining time-constrained sequential patterns with constraint programming. Constraints, 22, 548-570.

      [11] Fournier-Viger, P., Lin, J. C. W., Kiran, R. U., Koh, Y. S., & Thomas, R. (2017). A survey of sequential pattern mining. Data Science and Pattern Recognition, 1(1), 54-77.

      [12] Pearson, W. R. (2013). An introduction to sequence similarity (“homology”) searching. Current protocols in bioinformatics, 42(1), 3-1.

      [13] Zhao, Q., & Bhowmick, S. S. (2003). Sequential pattern mining: A survey. ITechnical Report CAIS Nayang Technological University Singapore, 1(26), 135.

      [14] Agrawal, R., Mehta, M., Shafer, J. C., Srikant, R., Arning, A., & Bollinger, T. (1996, August). The Quest Data Mining System. In KDD (Vol. 96, pp. 244-249)