Notions de base d’Internet

Type de réseaux :

Réseaux circuits (téléphone) : ressource réseaux sont allouées et restent réservé jusqu’à la fin de la connexion.

Réseaux paquet (Internet) : ressource réseaux alloués dynamiquement quand il y en a besoin.

Caractéristique des réseaux paquets :

La performance dépend de la charge du réseau (données peuvent se perdre).

Utilisation des ressources du réseau est optimisée.

Adresse internet : il faut pouvoir désigner les machines pour pouvoir envoyer des données. Chaque machine a une adresse (nombre de 32 bits).

Le protocole TCP/IP

Un protocole définit les règles permettant à 2 programmes ou machines de communiquer.

TCP/IP est une pile de protocoles :

Protocole physique, IP (routage), TCP (connexion circuit) ou UDP (connexion par data gramme).

DNS (domaine name service)

Recherche d’une adresse :

Envoi d’une requête au serveur de DNS local L.

Soit il connaît l’adresse, soit il demande à un autre serveur

DNS S (un serveur racine).Lui aussi soit donne la réponse soit envoi vers un serveur DNS S’ …

Information stockées sur un serveur DNS :

Enregistrements de type A (adresse IP)

Enregistrements de type CNAME (Alias)

Enregistrements de type MX (machine recevant les email pour un autre)

Notion de port : Une connexion TCP/UDP client serveur s’identifie :

Adresse IP client

Port client

Adresse IP serveur

Port serveur

Protocoles

Classification des ports :

De 1 à 1023 sont attribués pour des applications services standard (well known)

Inetd : pour économiser les ressources d’un serveur peu demandé

Il ne s’exécute pas continuellement, le programme inetd fait demarer en cas de besoin.

World Wide Web

Le modèle Hyperlink :

Des documents peuvent contenir des textes, images, sons, et des liens.

L’utilisateur peut naviguer d’un document à l’autre en suivant les liens.

Les documents peuvent se trouver n’importe ou sur Internet.

Interface graphique :

Interface unifiée pour une variété de services

Unité vis-à-vis des protocoles.

Histoire de WWW

Le développement du WWW à été entrepris au CERN depuis 1989

(Tim Berners-Lee).

Définition du protocole client serveur http

Développement de la libraire wwwlib

En 1992 CERN place wwwlib dans le domaine publique.

1993 NCSA développe un navigateur WWW (Mosaic)

1994 création de Netscape

1994 création du W3C (WWW consortium)

Concepts fondamentaux :

URL : décrit ce qui doit être fait lorsqu’un lien est activé.

Protocole, machine hébergent le document, le port, répertoires, nom du document.

Navigateur WWW : but est de chercher les documents WWW d’un serveur WWW, interpréter le contenu HTML et présenter à l’utilisateur.

Ils peuvent : communiquer avec des serveurs Gopher

Commencer des sessions TelNet

Servir comme lecteur de news.

Effectuer les session FTP

Servir comme MUA pour le courrier électronique.

Lire un fichier

Rechercher des informations.

De plus : ils peuvent enregistrer, imprimer, rechercher un texte, examiner le code html du documents.

Editer le langage HTML, se souvenir de l’historique.

Serveur WWW :

Le port par défaut est le 80.

Possibilité d’exécuter des scripts (formulaires).

Servir comme Gateways pour d’autres ressource d’information.

Http : les navigateurs et serveur communique gracent au http

Déroulement :

Connexion est établie,

Le navigateur transmet les types MIME (Multipurpose Internet Mail Extensions) qu’il peut traiter.

Réponse serveur : type MIME du fichier transmis, une ligne vide, données (celle que le client peut traiter).

Fin de la connexion.

Parallèlement aux types MIME, le navigateur, peut utiliser des programmes externes pour traiter les données transmises.

Histoire d’Internet

Arpanet : ARPA est chargé de mettre en place un réseau devant être opérationnel même en cas de guerre nucléaire.

Les réseaux-circuits sont jugés très vulnérable puisque la coupure d’une ligne coupe toute communication sur cette ligne. Par conséquent ARPA finance des études pour réaliser des réseaux par paquets, une idée considérée à l’époque comme très radicale.

Naissance de TCP/IP : ARPA finance la recherche pour les réseaux-satellite et les réseaux radio. Le projet ARPA « intermetting » a pour but de connecter plusieurs réseaux de type différents, mais le protocole NCP d’ARPANET n’est pas approprié.

En 1974 le projet « intermetting » donne naissance au protocole TCP/IP : un utilisateur dans un camion en Californie à utiliser un ordinateur situé à Londres.

Succès de TCP/IP : ISO prennant des années pour définir un standard, et le besoin d’interconnexion devenant pressant, TCP/IP est la méthode la plus simple pour faire communiquer deux ordinateurs de construction différente ensemble.

TCP/IP fait partie d’UNIX ce qui simplifie énormément la connexion sur ARPANET.

Le privilège de se connecter à l'ARPANET n’est plus réservé seulement aux mainframes mais aussi réseaux locaux.

Fin de l’ARPANET

1983 : ARPA considère que ARPANET est opérationnel et en délègue la gestion a DCA. DCA divise ARPANET en deux parties : MILNET (militaires), ARPANET (recherche).

1990 : ARPANET disparaît.

Naissance de NSFNET : NSF se rend compte de l’impact d’ARPANET sur la recherche. Pour qu’une université air accès à l’ARPANET elle devait avoir un contrat ave DoD ce qui n’était pas toujours le cas.

NSF veut mettre à disposition de toute communauté de recherche des ressources informatiques importantes (5 centre de calcul puissant).

Les centres ont été connectés par de connexion 56Kbps

Connecter directement chaque institution à un centre coûte trop cher.

Création des réseaux régionaux qui se connecte sur le backbone NSFNET.

Architecture de NSF : Une école est connectée à son voisin le plus proche qui lui-même est connecté a son voisin le plus proche, …

À la fin de la chaîne il y le centre de calculs. Ainsi la communication se fait en faisant passer le message à son voisin.

NSF se connecte aussi à ARPANET

Des réseaux d’Europe et d’Asie et du Canada connectent aussi.

On parle alors d’INTERNET.

Naissance d’Internet :

Le protocole TCP/IP est la substance qui tient tout l’édifice.

On dit qu’une machine est connectée à Internet

Si elle a une adresse IP et utilise TCP/IP pour envoyer des paquets IP à d’autre machines.

Succès de NSFNET : à permis à tout le monde d’avoir accès au réseau.

A réussi au point de saturer les lignes téléphoniques et les ordinateurs.

Les capacités des lignes passent à 448 Kbps et par la suite (1990) à 1,5 Mbps.

Des ordinateurs plus performants sont utilisés pour « routers ».

Des organisations commerciales veulent se connecter sur NSFNET, or c’était impossible puisque NSF est une institution gouvernementale.

NSF encourage la création d’ANS.

ANS se charge de la gestion de NSFNET qui devient ANSNET.

ANS améliore la capacité des lignes à 45 Mbps.

Successeur de NSFNET : En 1995 le backbone de NSFNET n’est plus nécessaire pour connecter les réseaux régionaux : ces réseaux doivent se procurer des services IP commerciaux.

NREN est le successeur de NSFNET fournissant des lignes de capacité 1Gbps.

Autorités :

1983 création de IAB dont la mission est de gérer l’ARPANET et Internet.

1986 création de IRTF (recherche dans le long terme) et IETF (problème a court terme).

1992 se crée le ISOC (Internet SOCiety) dont le but est la gestion de l’Internet mais aussi la promotion de l’échange d’information par la technologie Internet.

Création des standards

2 sorte de Standard : de facto et de Jure.

Pour faire un standard Internet il faut :

Que l’idée soit entièrement décrite dans un RFC et qu’elle soit digne d’attirer l’attention de la communauté Internet : Proposed Standard.

Pour avancer au « Draft Standard » il faut qu’il y ait une implémentation de l’idée testée au moins par deux sites indépendants pour 4 mois.

Si l’IAB est convaincu que l’idée est bonne alors le RFC devient un standard Internet.

Le modèle ISO/OSI (open Systems Interconnect)

Sa définition est finie.

Beaucoup de monde ne sent pas le besoin d’utiliser un modèle compliqué qui n’apporte pas beaucoup plus que l’IP.

Courrier Electronique

Utilité : envoyer un message d’un utilisateur à l’autre.

Caractéristique : Comme ce n’est pas interactif, des délais sont tolérés donc la charge infligée sur les systèmes est modérée.

Disponibilité : Service Internet le plus répandu et est universellement accepté.

SMTP (Simple Mail Transfer Protocol) :

Hello ------ Hello

Mail from -------- Okay

Mail to ----------- Okay

Message ---------- Okay

Done ----------- Okay

Service standard des CE

Alias, Forwarding, Déviation, Organisation en répertoire, fichier-signature à la fin du message, copies carbone, copies-carbone cachée.

Service non-standards des CE

Notification de réception, notification de lecture, annuler l’envoi.

Envoi de données : conçu pour des textes de 1000 caractère Max,

Les messages sont codés et décodés (envoi et réception)

CE MIME : Pour envoyer des objets autres que le texte.

Le message qui ne peut apparaître ailleurs que dans le message.

Les lignes qui suivent la chaîne de découpage décrivent le type de données.

Protocole UA – MTA

POP3 : possibilité de login / logout

Transfer des messages MTA sur la station ou l’UA s’exécute.

IAMP : maintient un repositoire central.

DMSP : permet de transférer les messages sur une station de se déconnecter, la station synchronisant les 2 par la suite.

Serveur de liste :

Inscription automatisée

Contrôler la diffusion de messages

Diffusion de digest

Assister le traitement de message faux

Archiver des messages.

Déroulement : Un serveur de liste est associé à une adresse CE et accepte toutes les commandes pour toutes les listes sur cette machine.

Lie les messages et suivent les instructions (s’il y en a)

Problème : difficile à maintenir, il faut l’intervention humaine.

Mail Loop : envoyer un message à un destinataire de la liste (le destinataire fait un forward sur la liste).

File Transfer Protocol

Transfert de fichier d’un ordinateur à un autre. Ils peuvent :

Ne pas être relié au même réseau

Utiliser des systèmes d’exploitation différente

Utiliser des structures de fichiers différentes

Déroulement :

Envoi d’un port éphémère cote client

Transfert de données sur la connexion de données

Fermeture de la connexion de données pour annoncer la fin du fichier.

2 modes de transfert de données : ASCII et Binaire (image)

Commandes et réponses sont en ASCII

Les commandes sont identifiées de 4 caractères en MAJ et peuvent avoir des arguments (ex : STOR filename)

Les réponses sont composées d’un nombre à 3 chiffres et d’un texte

(ex 200 commande OK / 452 Error Writing file)

Utilisation

ftp host (pour commencer une session)

quit (pour arrêter ftp)

Commande relative aux répertoires :

cd (changer de répertoire)

pwd (afficher le répertoire sur la machine host)

lcd (changer de répertoire sur la machine locale)

lcd. (afficher le répertoire courant sur la machine locale)

ls/dir (afficher le contenu du répertoire courant sur la machine lointaine)

Transférer des fichiers :

get (transfert un fichier sur une machine locale)

put (transférer un fichier sur une machine lointaine)

delete (effacer un fichier sur la machine lointaine)

mget/mput (transférer plusieurs fichiers)

get fichier (afficher le contenu du fichier sur la machine locale)

Commande divers :

! (Échapper au système d’exploitation)

help (aide)

prompt (annule/ redémarre les confirmations de transfert de fichier)

Gestion des sessions :

close (ferme la session courante)

open host (commencer une session avec host)

user nom (login sur la machine lointaine)

FTP anonyme : permet de transférer des fichiers en ayant des droits d’utilisation restreints sur la machine lointaine.

User : anonymous

Password : user@address

Archie

Archie cherche des index pour localiser des fichiers disponibles sur des serveurs publics. Il fait une recherche par nom de fichier ou mot contenu.

Le résultat de la requête est une liste des fichiers et des serveurs d’où ce fichier peut être transféré.

Exemple de commande : help, find, whatis, quit, domains, set, show, servers, list

Paramètre de recherche :

Set search (exact|regex|sub|subcase) (modifie le mode de recherche)

Set match_path (chaine1 :chaine2 :chaineN) (restreint la recherche aux répertoires contenant les chaînes précisées).

Set match_domain domain (restreint aux domaines préciser)

X.500 : service pour trouver des informations sur Internet (personnes et organisations).

Les informations sont structurées sont une structure arborescente.

Au plus haut niveau les informations sont classifiées par pays, puis par organisations, puis par département, jusqu’à arriver aux personnes)

Whois : autre service pour rechercher des personnes impliquées dans le développement d’Internet

Gopher : service qui permet d’accéder à des documents au moyen de menus, même si les contenus ne se trouvent pas sur le même serveur.

En plein déclins à cause d’Internet.

Whais : permet de trouver des documents à partir d’index. Les index sont construits de manière automatique à partir des documents stockés.

Netstat : fournit une multitude d’informations sur le réseau

Ping [-s] machine : permet de tester si une machine est connectée

Option –s donne le temps en millisecondes.

Telnet : émulation d’un terminal de type caractère pour se connecter sur une autre machine sur Internet.Les deux machines utilisent le protocole Telnet pour communiquer.

Exemple de commande : ?,close, display, open, quit, set, status

Services basés sur Telnet :

Pour utiliser un programme localisé sur une autre machine.

Créer un compte client auquel on commande tous les programmes utilisé.

Telnet en utilisant des ports non-standards

Afin d’éviter de se connecter comme un utilisateur service on peut exécuter telnet sur un port non-standard.

Finger permet d’obtenir un certain nombre d’information sur un user

Type de connexion, répertoire racine, temps de connexion, ….

News Discussion électronique planétaire sur un sujet. Les utilisateurs peuvent s’inscrire aux news groupe qui les intéressent.

Caractéristiques : peut être modéré, la naissance se crée par votation.

Organisation : Les newsgroups sont organisés selon une hiérarchie, ils sont classifiés

Catégorie principales : Comp, Sci, News, Rec, Mic, Soc, Talk, Alt.

Déroulement : Un serveur news demande à ses voisins de lui envoyer les nouveaux articles, pas de copies distinctes pour chaque utilisateur.

Les serveurs news utilisent le protocole NTTP pour communiquer. C’est un protocole ASCII.

Caractéristiques des serveurs de news :

Support pour threads

Réponses par Email

Envoyer un email sur un ensemble de newsgroups

Enregistrement des messages sur un fichier.

Ftpmail

Utilité : c’est un serveur de fichier, les fichiers sont obtenus par FTP puis les résultats sont envoyés par CE. Le serveur Ftpmail lit les commandes ftp du message, se connecte au site FTP et renvoi les résultats.

Permets un accès plus rapide à nos archives

Pour des raisons de sécurité il se peut que les stations ne soient pas connectées directement à Internet. Mais qu’elles aient accès a FTP.

Commerce électronique

Définition :

Il couvre toutes les formes de transactions commerciales, ou de support aux transactions.

Sécurité :

Attaques possibles :

Eavesdropping (= écoute indiscrète d’une communication)

Man-in-The-Middle-attack (= Interposition d’un message et modification de contenu)

Masquerading (= Se faire passer pour quelqu’un d’autre)

Reply attack (=rejouer des vieux messages)

Denial of Service (= surcharger un services de requêtes bidon pour pénaliser l utilisateur légitime)

Services de Sécurités :

Confidentialité (accès aux données par les proprios)

Authentification (les gens sont qui ils disent, et viennent de là qu’ils disent)

Intégrité (non-altération des données, conformité à l’original)

Non répudiation (ne pas pouvoir nier son origine & réception d’un message)

Disponibilité (temps de réponse, tolérance aux fautes, partage des ressources)

Cryptographie :

But : Garantir la confidentialité

Cryptographie Symétrique : à clé privée, partagée

Clé de cryptage est la même que celle de décryptage

Connue des deux protagoniste

Dk (Ek(M)) = M

Cryptographie Asymétrique : à clé publique, asymétrique

Clé de décryptage est différente de la clé de décryptage

Clé de décryptage est privée (donc il faut connaître la PK de l’autre)

Dsk (Epk (M)) = M

Fonction de condensation : Hachage à sens unique

Facile à calculer

Très difficile à inverser

Résistant aux collisions

Signature Electroniques

Utilisation d’un service de timestamp (détecte l’utilisation multiple & non répudiation)

Systèmes de payement :

Types directe : Cash & Cheque

(Communication directe entre le client et le fournisseur)

Types indirectes : Push & Pull

(Pas de communication directe entre le client et le fournisseur)

Sécurité :

Intégrité du système et autorisation (trace et autorisation)

Confidentialité (Données sont cachées)

Disponibilité et Confiance (atomicité des transactions et tolérance aux fautes)

Anonymat et vie privée vis-à-vis des acteurs (Anonymat mais tracabilité quand même).

Édition Electronique : Gestion des droits et politiques électroniques

Obstacles majeurs à la distribution électronique sur Internet :

Faible protection de droits de copyright et de propriété intellectuelle

Manque de standardisation des Systèmes de paiement électroniques

Craintes.

L’édition électronique commerciale recouvre un vaste champ :

Hypertexte

Imprimerie, Typographie, BD, Multimédia, IA,…

Le problème est qu’actuellement la gestion des politiques de sécurité est dépassée

Et les entreprises payent un lourd tribut aux vols divers.

L’objectif (technologiques)

Technologie permettant la gestion des droits et des politiques électroniques afin de :

Mieux gérer et protéger les informations sensibles

Établir des traces auditables sur l’usage des ressources

Offrir une solution permettant une sécurité au-delà du périmètre de base.

Solution avec les DRMs :

Solution pour la gestion électronique des droits et des politiques régissant l’utilisation de contenus au sens large :

Gestion responsable de l’utilisation de contenus

Aide à la gestion de classifications

Aide à la gestion et à la mise en conformité

Politique de rétention

Tracabilité

Gestion de révocation et octrois.

Problèmes des DRMs :

Ne peut pas offrir une sécurité totale « au niveau militaire »

Ne peuvent pas protéger contre les attaques « analogiques »

La superdistribution

Logiciel (Ryoichi Mori, Cox, copyFree) ayant comme objectif

Une distribution de logiciels garantissant :

une compensation équitable pour le producteur

une protection contre les modifications

Ces logiciels reposent sur le constat suivant :

Détection du piratage est très difficile

Détection et monitoring de l’utilisation est triviale.

La superdistribution repose sur l’encryptions de logiciel (S-pgm)

Distribution illimitée, payement à l’usage

Politique de prix fixé par le producteur

Tout utilisateur « équipé » peut exécuter le pgm

Système garanti par l’utilisation de matériel résistant aux attaques (S-box)

Secure Content Encapsulation (Wrappers, boxology)

DRM/DPM, eContent, eBooks…

Digital Rights Management – Digital Policy Management

Terminologie :

Protection persistante

Le document est et reste crypté en tt temps

Les règles sont attachées cryptographiquement au contenu forçant l’acquisition d’une licence lors de l’accès.

Scénario général d’utilisation :

Préparation du contenu (packager le contenu sécurisé avec ses règles)

Distributions du contenu (Superdistribution, On-line, Off-line)

Utilisation/restitution du contenu (interprétation et exécution des règles d’utilisation pour décodage et restitution)

Traitement des transactions (aspect financier, reporting, mesure d’utilisation)

Exemples de règles :

Abonnement

Transferabilité (devise portable)

Basé sur les dates, durées, nombre d’utilisations, personnel, paiement à l’usage

Les règles sont exprimées à l’aide d’un langage

Associées directement ou non au contenu

Possibilité de combiner les règles.

Conclusion & Perspectives :

Profondes mutations dans l’industrie de l’édition

Faux débat sur la question de la gratuité de l’information

Fort potentiel secteur entreprises (Vs industrie du divertissement) d’un point de vue Policy Management

Recherche d’un équilibre raisonnable

Standardisation : facteur clé du succès !

Outils de recherche d’Information sur le Web.

La recherche d’information :

But : réduire l’espace d’information par un filtrage basé sur une formulation des besoins des utilisateurs.

Moyen : Systèmes de Recherche d’information (Ensemble d’outils permettant de représenter, de stocker, de retrouver, et d’afficher l’information).

Approche : Représentation des documents par un modèle

Modélisation des requêtes

Fonction de classement (pertinence)

Localisation des ressources sur le Web :

Les adresses IP (mais absence de sémantique, difficile à retenir)

Les noms de domaines (DNS)

Dn de 1er niveau : ch, fr, com

DN de 2ième niveau : unige, fifa, metah, …

Le système DNS (domaine Name System)

Une grande base de données distribuée permettant de retrouver une adresse IP à partir d’un nom de domaine et vice-versa.

Localisation par Mots-clés

Le système RealNames : permettant de réserver un mot clé spécifique pour représenter une ressource.

La navigation : simple et intuitive mais Insuffisante dans un grand espace informationnel.

Fonctionnalités navigationnelles :

Visites guidées : chemin de navigation prédéfinis.

Backtracking : retour aux nœuds déjà visités

Bookmarks, plan de site.

Les moteurs de recherche :

Composant :

Un robot (spider, crawler, etc.) : un programme qui récolte un grand nombre d’information sur un grand nombre de pages Web.

Un index : une gigantesque base de données contenant les informations récoltées par le moteur de recherche fournit l’accès à ces données.

Une interface graphique : une page Web permettant la saisie des requêtes et l’affichage des résultats.

Fonctionnement d’un moteur de recherche

Indexation :

Prédiction de la pertinence d’une page HTML

Le robot visite une page notée dans son agenda ou suite à une demande explicite.

Identification des mots à indexer : exclusion des termes inutiles

Détection des techniques de spamming, élimine les suffixes.

Calcul le « poids » des termes à indexer : Ti => Pi

Le poids d’un terme est fonction de sa fréquence et de son emplacement.

Le résultat d’une indexation est de la forme :

P = (T1 :P1 ; T2 :P2 ;Tn :Pn)

Exclusion de l’indexation :

Raisons : site en conception, éviter la surcharge d’un site.

Moyens : le fichier robots.txt

Les meta-tags HTML.

Stockage des données.

L’index est inversé :

Le robot construit un index de la forme

-Documents => liste des termes du document

L’indexation inversée consiste à construire un index de la forme :

-Terme => liste des documents contenant ce terme

L’inversion permet d’améliorer le processus de recherche d’information.

Requêtes : terme ou combinaison de termes.

Recherche de documents contenant les termes de la requête (parcours son index, pas le Web).

Classement des documents :

Facteur influençant le classement :

La fréquence du terme dans le document.

La forme du document (cadre ou pas)

La fiabilité du document : liens rompus, taille.

La popularité par les liens : nombre et provenance des liens pointant vers la page. (Principe du succès de Google)

La popularité par les sujets (page liée entre elle et ayant un point commun)

La popularité par les visites.

Les partenariats (payer pour le classement)

Présentation des résultats :

Information sur chaque document (date mise à jour, taille, etc.)

Ligne contenant le terme de la requête

Descriptif (Meta Name = Description)

Présentation d’un aperçu.

Redirection vers des sites commerciaux.

Utilisation d’un moteur de recherche :

Requête simples : mots et phrases (inclusion ou exclusion de données)

Requête sur la structure : Text, title, image, url, applet, link, domaine

Requête avancée : expressions booléennes (AND , NOT, NEAR, DATE, ORDER)

Caractéristique d’un moteur de recherche :

Taille : nombre de pages indexées (Google 8 milliards)

Popularité : nombre de recherches par jour

Puissance : nombre de pages indexées par jour.

Fraîcheur : délai minimum pour ré-indexer une page.

Annuaires et portails :

Caractéristiques :

Organisation hiérarchique de l’information

Classification manuelle des sources d’information. (dmoz.org)

Plus populaire que les moteurs de recherche (Google est 6ième des outils de recherche les plus visités).

Avantages :

Conviennent à une recherche très générique

Les informations sont souvent plus pertinentes

Inconvénients :

Liste non exhaustive de thèmes (Open Directory : 361 000 catégories, LookSmart : 200 000)

Nombre illimité de pages répertoriées.

Un site ne correspond pas uniquement à la liste des thèmes dans lequel il est répertorié.

Il est parfois difficile de définir la catégorie de l’information recherchée.

Annuaire non-généralistes :

Annuaire spécialisés :

Par domaine de connaissance

Par type de données.

Annuaires régionaux :

Limite l’indexation et la recherche à un nombre restreint de domaines.

Contiennent généralement plus de pages régionales que les autres.

Moteur de meta-recherche :

Combinent les résultats de recherche des autres moteurs.

Les portails :

Site attrape tout, visant à attirer un maximum d’utilisateur.

Offre un grand nombre de services (infos, météo, messagerie)

Une très grande importance commerciale (1/3 du trafic des entreprises provient des portails).

Les infomediaries :

Portails spécialisés (clientèles souvent professionnelles)

Mets à disposition un digest d’information concernant un domaine donnée en fonction des intérêts et préférences du visiteur.

Limite des outils de recherche sur le Web :

Pertinence : les résultats d’une recherche ne correspond pas toujours aux requêtes.

Cause : Le langage HTML ne permet pas de représenter la sémantique.

Les algorithmes de mesure de la pertinence sont insuffisants.

Qualité et fiabilité : le fait qu’une ressource soit référencer par un moteur de recherche ne garantit pas son utilité, sa précision, sa valeur ou son importance.

Polysémie : les moteurs de recherche ne comprennent pas les différents sens dont peut prendre un mot.

Le Web invisible : les pages html servent de point d’accès à une grande quantité d’information invisible pour les moteurs de recherche.

Fraîcheur des données : les moteurs de recherche et annuaire n’offrent pas les données les plus récentes.

Causes : Les MR se basent sur leur index, et ils mettent du temps à se rafraîchir.

RSS (Really Simple Syndication)

Extension de XML/RDF

Permets de mettre à jour de l’information

Possibilité d’agréger de l’information de plusieurs sources.

Le futur ?

Des services de plus en plus payants

De moins en moins d’annuaire généralistes, de plus en plus de spécialisés.

Une recherche de plus en plus intelligentes.

Recherche d’information en Intranet.

Intranet : Internet à l’échelle d’une entreprise.

Les utilisateurs diffèrent : employé de l’entreprise (modèle d’user)

Les taches diffèrent : fréquentes, complexes, critique (anticipation des besoins).

Le type, la quantité et la valeur de l’information diffèrent (information décisionnelle).

Plus de pertinence,, recherche sur des formats de données hétérogènes.

Moyen technique différent : communication rapide, machines puissantes

Moyen technique plus évoluées.

Web et Base de Données

Définitions :

Données : faits qui peuvent êtres enregistrés et qui ont une signification implicite.

Base de données : ensemble logiquement cohérant de données.

Conçu et construit à partir de données pour un besoin spécifique.

Niveaux de représentation d’une BD :

Schéma Interne : description des données en terme de representation physique de machine.

Schéma conceptuel : description des données indépendamment de la manipulation qui sera faite.

Schéma externe : description correspondant à une vision particulière d’un utilisateur ou d’une application.

Systèmes de gestion de BD :

Ensemble de programme permettant :

Définir une BD (structure, schéma conceptuel)

Construire une BD (stockage dans un support physique)

Manipuler les données (effectuer les requetes)

Fonctions d’un SGBD :

Description, Recherche, Mise à jour, Transformations.

Objectif d’un SGBD :

Indépendance physique : pouvoir faire des modifications sans effacer.

Indépendance logique : représentation, utilisation, programme accédant aux BD.

Manipulation des données par des langages non-procéduraux (nom=duop).

Cohérance des données : 2 étudiants ne peuvent pas avoir le même ID.

Partage des données : Gestion de la concurrence

Sécurité des données : Vs accès non autorisé, panne

Composant d’un système de BD :

Serveur : le logiciel qui exectue les commandes pour acceder aux données.

Support physique de stockage : la ou sont stocké les données.

Architecture de BD :

Client / Serveur : les applications tourne sur les machines de l’user.

Le serveur est proche des données.

MainFrame / Terminal : les applications tourne coté serveur.

Le terminal n’affiche que les données.

Bureau : interface utilisateur, applications et serveur tournent sur la même machine.

Pourquoi une intégration des BD ?

Production :

Grande quantité de données (moteur de recherche)

Données volatiles (gestion de la mise à jour)

Données complexes (horaire)

Ressource de données diverses.

Utilisations des données existantes

Mise en œuvre d’application évoluées (datamining)

Distribution :

Faible coût de déploiement (utilisation du navigateur)

Gestions des versions de l’applications (pas coté client)

Distribution universelle (indépendance de la plateforme)

Utilisation :

Accès simplifiés aux données : formulaire simple.

Complexité transparente

Fraîcheur des données.

Une nouvelle génération de Web/BD

Le Web est devenu un moyen de capturer les comportements, goûts, opinion des user.

Objectif :

Améliorer la qualité des produits.

Améliorer l’accès.

Capture de model de comportement.

Prise de décision stratégique.

Types d’interfaces Web / BD :

CGI : ensemble de règles permettant :

De passer les requetes des utilisateurs à un programme externes.

Recupère les données pour les renvoyer à l’user.

Fait partie du protocole Http.

Avantage :

L’échec d’un processus CGI n’a pas d’effet sur les autres processus.

Inconvenients

Au niveau interface graphique : pas de preformattage pour les champs.

Validation coté serveur : augmente la complexité.

Traitement se fait coté serveur (surcharge).

Chaque requete est tratié independament des precedents.

Transfert des données + transfert de la presentations.

Surcharge du serveur de BD.

Serveur Side-includes (ASP,PHP,JSP)

Avantage :

Integration coté serveur (plus rapide)

Application web développées de la meme manière que les applications BD.

Convient à la publication de BD Oracle existante.

Inconvenient :

Risuqe d’arret du serveur web.

Portabilité : application dévellopé en language propriétaire.

Introduction à la sécurité sur Internet

Notion liées :

Confiance, naïveté

Responsabilité

Impunité

Secret

La sécurité dans un réseau local :

Notion de droits d’accès

Facteur important : l’identification

Responsabilité : chacun est responsables actes qui n’ont pas laissé de trace sur ça machine.

Historique : garde toutes les traces des commandes exécutées récemment.

Droit d’accès et identités :

Les droits d’accès sont des permissions données à un utilisateur sur l’écriture, la lecture, l’exécution.

L’identité va permettre d’attribuer les droits d’accès au démarrage.

Le super-Utilisateur à tous les droits car c’est lui qui les attribue.

Réseaux locaux : caractéristiques.

Utilisateurs bien définis et souvent connus.

Machines reconnues donc plus facilement administrables.

Faible distance entre les machines donc peut de perte d’informations.

Un seul groupe d’administrateurs.

Application à Internet :

Il y a la même notion de responsabilité mais :

L’identification est plus flou (changement de providers, Ip)

On peut effectuer des actions qui laissent peu de traces si on a les droits pour les effacer.

On peut espionner les communications.

Menaces Programmées :

Malware :

Malicious software, application dont le but est de nuire au bon fonctionnement d’un ordinateur.

Comprends les Virus, Vers, Cheveaux de Troie, Porte dérobées, Spyware.

Espionnage

Consiste à scruter les communications d’un utilisateur.

Porte dérobée

Consiste en un contournement des sécurités mises en places.

Elles sont un moyen de pénétrer dans un site à long terme.

Fonctionnement des BackDoor :

Généralement crée par les programmeurs pour faire des tests.

Sinon ce sont des bugs (oublis des programmeurs)

Ce sont des failles de sécurité d’un système.

Bombes logiques

Programmes qui ont besoin d’une certaine condition pour se mettre en marche.

Elles sont généralement invisibles si la condition n’est pas exécutée.

Fonctionnement des bombes logiques :

Dans le logiciel, quelque ligne font un test et si ce test est réussi un comportement spécifique est mis en place. (Vendredi 13)

Chevaux de Troie

Programme apparament utile mais qui à une partie cachée de l’utilisateur, qui permet de contourner les sécurités.

Bactéries (Wabbits)

Le seul but des bactéries est de ce reproduire très rapidement.

Pas d’infection (changement de programme)

N’utilisent pas les ressources réseaux.

Mais font une saturation systèmes.

Vers (Worms)

Les vers sont des vecteurs d’une attaque locale pour se déplacer de machine en machine à travers le réseau. (1988 Moris)

Virus

Un virus est un programme qui peut se répliquer en faisant une copie potentiellement modifiée de lui même.

Peut infecter d’autres programmes et se transmet de programme en programme.

Ils peuvent être hôte pour d’autre comportements

1 nouveau tous les ± 6 jours .

idée reçues sur les virus :

Pas de virus dans un mail.

Pas de virus dans Word (sauf macro)

Virus ramenés du Web (faux boutons)

Moyen de lutter :

Solution Cryptographiques :

Lutte contre l’espionnage.

Moyen d’authentification.

Moyen de non répudiation.

Ex : SSL, RSA, Shttp, SSH.

Droits d’accès :

Permettent de circonscrire les attaques.

Pour éviter les risques il faut éviter de faire des opérations sensibles avec des droits de super-utilisateur.

Antivirus :

Repèrent les virus de famille connues.

Indispensable pour assurer une sécurité de ses données.

Mise à jour régulière nécessaire.

Très dépendant des machines, systèmes d’exploitation et de types de virus qu’ils connaissent.

Firewalls :

Les firewalls permettent de limiter les attaques provenant de l’extérieur.

Fournissant très peu de moyens de rentrer en provenant de l’extérieur.

Laisse un accès clairement défini à partir de l’intérieur.

Composant d’un firewall

Politique réseau : on doit définir les services que l’on veut fournir aux utilisateurs de l’extérieur et de l’intérieur.

2 sortes de politiques :

Tout sauf ce qui est interdit

Rien sauf ce qui est permis.

Mise en place de mot de place à usage unique (impossible à voler)

Filtrage des paquets

Adresse IP de la source

Adresse Ip de destination

Port TCP/UDP de la source

Port TCP/UDP de destination.

Que filtrer : Telnet, ftp, smtp, RIP, DNS, UUCP, NNTP, gopher, …

Passerelles d’applications :

Est une machine qui possède des applications (Proxy) qui permet de fournir un service au réseau local tout en le contrôlant.

On peut spécifier de ne pouvoir utiliser que certaines fonctionnalités.

Exemples de firewalls :

Firewall à filtrage paquets :

Est mis sur le routeur.

Il intègre uniquement le filtrage de paquets et il interdit au moins les services important à filter.

Devient vite difficiles à gérer si les filtres deviennent complexes et nombreux.

Dual-Ported Host firewall :

Une machine est dédiée à la communication entre le reseau local et Internet.

Cette machine possède deux sorties réseaux et traites toutes les requêtes.

Elle peut utiliser les proxys.

Screened host Firewall :

Plus flexible que le dual-Ported mais moins sur car plus compliqué.

Un routeur bloque les communications

Un portail fait office (hôte bastion) fait office de serveur proxys pour l’intérieur et de serveur de données pour l’extérieur et l’intérieur.

Screened subnet firewall :

On rajoute encore un routeur à l’entrée du reseau, pour ne pas laisser passer vers l’extérieur les communications qui ne doivent pas passer.

Création de zones démilitarisées (DMZ)

Intéressant pour pouvoir concentrer les différents composants d’un firewall sur différentes machines eu utilisant plusieurs bastions.

D’où proviennent les attaques ?

En générales de l’intérieur, d’où inutilité partielle des firewalls.

De l’extérieur à travers des comptes piratés, un firewall est un là un minimum

Open Source Software

Philospohie et courants de pensé alternatif :

Hackers VS Crackers : Hacker est une personne qui bidouille et aime ça.

Cracker utilise ou trouve des failles et entre dans l'illégalité.

Site Underground : Sites pirates (numéro de series), expliquant des secrets.

TAZ (zone autonome temporaire) : Hakim Bey.

Utopie pirate : endroit liberé du control de l'état, de l'économie, du pouvoir

Mise en relation de personne grace au Net.

Informatique actuelle : Famine organisée :

Idée mise en avant par les défenseurs de l'open source, forcé d'utiliser win pour certain programme = famine logiciel.

Donc les ressources doivent être partagé.

Définition de l'Open Source :

Un logiciel est Open source s'il suit la licence qui oblige de fournir le code source.

Origines de l'Open Source :

Remontent à la démocratisation de l'informatique. (enchange de programme)

Type de logiciels :

Freeware : programme dont l'utilisation est gratuite.

Shareware : programme peu chère.

Domain public : on peut faire ce qu'on veut avec le code.

Open source.

Licenses :

Licenses classiques souvent illégal en Europe.

Domain public : tout le monde fait ce qu'il veut.

Open Source : on doit fournir le code source avec le logiciel

GPL : Licence open source qui se propage aux prochaines versions.

FSF et GNU :

Free Software Fondation : organisme pour la diffusion de logiciel.

Projet GNU : fondé èar R.Stallman pour crée un environnement UNIX gratuit et libre.

Victoire de l'Open Source :

Linux et les serveurs : Système Unix libre et gratuit.

A l'origine LINUX était un noyau et ensemble d'outils GNU.

Mozilla : projet lancé par Netscape (AOL)

Nautilius Gnome /KDE

Environnement de bureau en perpétuelle évolution

Multiple sous projet formant une suite logicielle complète.

Tourne sur UNIX, Bsd, Linux, Windows, …

Java :

A vu son code source ouvert pour que les chercheurs puissent le faire évoluer et le controlé.

Eclipse :

Plateforms d'intégration dôutils de développement multi-langage, multiplateforme, open source.

Mis a disposition à l'origine par IBM.

Eclipse fondation : but non lucratif, pour assurer l'évolution d'Eclipse.

Défaite de l'Open source reverse Engineering (décodé un programme et le comprendre)

Europe : autorisé

USA : interdit

Japon : permis sauf pour les produis USA.

Analyse : Profit ?

Comment gagner de l'argent avec Open Source :

Par les services des ingenieurs

Ou simplement permet de casser le marché vs "winner take all".

La bourse :

Les mouvements Open Source n'entrent pas dans ce jeu car composé de groupe volontaire.

Naissance de nouveaux modèles de distribution

Le web et les téléchargements

L'internet en général

Les moteurs de recherche et les sites spécialisés

Peer to peer

A suivre …

Systèmes Peer 2 Peer

Internet : initiallemnt popularisé par des applications comme email, telnet, news.

La baisse des prix et l'amélioration de la fiabilité et des performance des ordinateurs et des réseaux ont ofndé sont succès.

Architecture client-serveur :

Caractéristiques :

fournisseur de données : serveurs

consommateur de ressources : clients

Eventuellement indexeur.

ex : Ftp, www

Evolution de l'environnement :

Réseau plus rapides

Réseau plus accèsible

Plus d'utilisateur potentiels

Besoin grandisant en ressources

Plus de ressources sont disponible

Ressources existantes inutilisées.

Enjeu :

Le consommateur d'autrefois est potentiellement le fournisseur de ressource d'aujourd'hui.

Approche P2P :

Popularisé par Napster, un seul site permettait aux user de partager des fichiers(mp3).

Un serveur maintient un index des fichiers stockés sur chacun des pcs.

Le P2P est une évolution importante dans l'histoire d'Internet.

Loi de Metcalfe : L'utilité d'un réseau est proportionnel au carré du nombre de ses participants.Une fois qu'une masse critique est atteinte, c'est tout le système social, économique et politique qui change.

Qu'est qu'un Peer :

Service fournissant et consommant un ensemble de ressources sur un réseau.

Tous les peers sont considérés comme égaux.

Un peer n'est pas forcement lié à un type d'architecture maérielle ni à une application particulière.

Qu'est que le P2P :

Différentes approches d'interconnexions des peers existent :

Evolution de l'architecture : centralisé, semi-centralisé, architecture décentralisé

dit du P2P assisté au P2P pur.

L'autonomie des peers est de plus en plus grandes.

Architecture centralisée :

Caractéristiques : index centralisé, ressource décentralisées. (ex: Napster)

Avantage : Architecture et technologie connues (client serveur)

Localisation rapide des ressources possibles.

Inconvénients : Faible robustesse

Faible capacité de monté en charge

Recherche porte sur toute les ressources diponibles, sur le serveur utilisé.

Architecture semi-centralisée :

Caractéristiques : index centralisés et multiples pouvant soit êtres répliqués soit être distribués. Ressources décentralisées.

Avantage : Plus grande tolérance aux pannes (multiple index)

Plus grande capacité de monté en charge.

Inconvenients : Problématique tourant autour des fédérations, risque de split du reseau (cas ou serveur est une clé unique entre 2 sous-réseaux).

Architecture décentralisée :

Caractéristiques : index décentralisés, ressources décentralisées (ce qui ne signifie pas qu'il n'y ai pas de point d'entré.)(ex : Gnutella, BitTorrent)

Avantage : robustesse, transparence total de la localisation, maintenance dévolue au peer, Peer est responsable des ressources qu'il fournit.

Inconvenients : Charge du réseau élévé, temps de réponse élévée.

Solutions : Limitation du nombre de Hops (TTL pour éviter la surcharge du réseau) et limitation des recherches à un sous-réseaux.

Avantage du P2P :

partage des ressources,

utilisation de ressources matérielles inutilisées

résitence aux pannes

Partages des couts

Extensibilité

flexibilité et dynamisme

Environnement propre a créeer des synergies.

Défins pour les années a venir :

L'existence même du P2P pose des problèmes :

problème légaux (Droit d'auteur)

problèmes moraux (Surveillance non sollicitée, qui a le droit d'avoir les infos).

D'un point de vue technique :

Localisation des données ?

Pertinence, uniformité, et rapidité des résultats lors de recherches?

Sécurités ?

Evolution indispensable tant des lois que des technologies. Besoin d'outils adaptés

Directions :

Recoupement avec les interets et nombreuses technologies et poles de recherches

Ontologie

Gestion des droits et politique éléctronique DRM/DPM

Système auto-organisés

Agent mobiles

Utilisation dans différents contextes

reseaux et services ad-hoc (téléphonie)

gestion des connaissances

Travail collaboratif

Developpement de code open source

Jeux

Gnutella :

Protocole permettant l'indexation et la localisation de ressources sur un reseau totalement distribué. (vs problème de Napster)

Necessite un point d'entré permettant de trouver un ensemble de nœud voisin.

La recherche de ressources fonctionne selon le principe de flood controlé des requètes :

La requete initiale est envoyé à tout les voisins

Ceux ci la transmettent récursivement jusqu'à une profondeur prédéfinie (TTL).

Eventuellement une machine possède la ressource demandée et l'indique directement au demandeur.

Le transfert est négocié par les peers.

Avantages :

Protcole hautement robuste

Totallement decentralisé

Difficile à fermer

Inconvenients

Non scalable (on ne peut pas accéder à tout le reseau)

Visibilité limité du reseau

BitTorrent :

Plusieurs questions :

Comment transférer des données rapidement à un groupe de personnes interessés?

Comment gérer le fait que la majorité des nœuds se connectent pour quelques heures.

Comment éviter les nœuds ne cherchant qu'à obtenir des ressources sans en partager.

Utilise http pour mettre à disposition des méta-données concernant les fichiers distribués.

Url du Tracker

Hash de pièces, longeur, fichier, chemins,…

Tracker :

Point d'entrée gardant une listre de peers disponibles

Etat des peers (seed, downloading)

Retourne une liste aléatoires de peers

Haute performance induit par :

Séléection des pièces efficentes

Algorithme de choking

Upload Only

Tout fichier partagé par BITtorrent est découpé en pièces qui sont elles-même découpées en sous-pièces.

Algorithme de séléctions des pièces

priorité stricte

pièce rare d'abord

pièces aléatoires

Mode Endgame

Choking :

Pas de centralistation de données

Maximation des taux de transférts dévolue aux peers

Pour copérer avec un peers un peers upload des données

Pour ne pas coopérer, le peer choke le peer distant en arretant toute upload.

Nécessaire pour assurer des bonnes pérfomrances

Algorithme de Choking :

Les peers essayent d'avoir un comportement réciproque

Les peers n'offrant pas les meilleurs taux sont chokés

La bande passante restante est utilisé pour trouver des peers ayant de meilleures taux de transférts.

Unchoke optimiste

Protection contre le snubbing

Upload Only :

Une fois que le fichier est totallement télécharger le peer passe en mode upload only.

Le peer alloue toute sa bande passante pour uploader les données demadées vers les peers ayant les meilleures taux de download.

Avantages :

Meilleures utilisation de la bande passante

Limite le free riding(nœud qui télécharge seulement)

Possibilité de reprendre le téléchargement

Désavantages :

Charge supplémentaire induite par l'échange de petit fichiers

Les trackers sont un point d'entrer unique

Scalabilité ( Trackers utlisent 1/1000 de la bande passante)

Fin- Outils Internet, 2004-2005, A.Gyger "www.metah.ch"