HIGH-TECH

Qu’est que la technologie RAID ?

RAID (Redundant Array of Independent Disks ; à l’origine réseau redondant de disques bon marché) est un moyen de stocker les mêmes données à différents endroits sur plusieurs disques durs pour protéger les données en cas de panne de disque. Cependant, tous les niveaux RAID ne sont pas redondants.

Histoire du RAID

Le terme RAID a été inventé en 1987 par David Patterson, Randy Katz et Garth A. Gibson. Dans leur rapport technique de 1988, “A Case for Redundant Arrays of Inexpensive Disks (RAID)”, les trois ont fait valoir qu’un ensemble de disques bon marché pourrait battre les performances des disques supérieurs de l’époque. En utilisant la redondance, une matrice RAID pourrait être plus fiable que n’importe quel lecteur de disque.

Bien que ce rapport ait été le premier à donner un nom à ce concept, l’utilisation de disques redondants était déjà à l’étude par d’autres. Gus German et Ted Grunau de Geac Computer Corp. ont d’abord appelé cette idée MF-100. Norman Ken Ouchi d’IBM a déposé un brevet en 1977 pour cette technologie, qui a ensuite été nommée RAID 4. En 1983, Digital Equipment Corp. a expédié les disques qui deviendraient RAID 1, et en 1986, un autre brevet IBM a été déposé pour ce qui deviendrait RAID 5. Patterson, Katz et Gibson ont également examiné ce que faisaient des entreprises telles que Tandem Computers, Thinking Machines et Maxstor pour définir leurs taxonomies RAID.

Alors que les niveaux de RAID indiqués dans le rapport de 1988 donnaient essentiellement des noms à des technologies qui étaient déjà utilisées, la création d’une terminologie commune pour le concept a aidé à stimuler le marché du stockage de données pour développer davantage de produits RAID array. Le terme ” bon marché ” utilisé dans l’acronyme a rapidement été remplacé par ” indépendant ” par les fournisseurs de l’industrie en raison des répercussions des faibles coûts.

Fonctionnement de RAID

RAID fonctionne en plaçant les données sur plusieurs disques et en permettant aux opérations d’entrée/sortie (E/S) de se chevaucher de manière équilibrée, améliorant ainsi les performances. Comme l’utilisation de plusieurs disques augmente le temps moyen entre les pannes (MTBF), le stockage redondant des données augmente également la tolérance aux pannes.

Les matrices RAID apparaissent au système d’exploitation (OS) comme un seul disque dur logique. Le RAID utilise les techniques de mise en miroir de disque ou de striping de disque. La mise en miroir copie des données identiques sur plus d’un lecteur. Striping partitionne l’espace de stockage de chaque disque en unités allant d’un secteur (512 octets) jusqu’à plusieurs mégaoctets. Les bandes de tous les disques sont entrelacées et adressées dans l’ordre.

Dans un système à utilisateur unique où de gros documents, comme des images médicales ou d’autres images scientifiques, sont stockés, les bandes sont généralement petites (peut-être 512 octets) de sorte qu’un seul document couvre tous les disques et peut être consulté rapidement en lisant tous les disques en même temps.

Dans un système multi-utilisateurs, une meilleure performance exige que vous établissiez une bande suffisamment large pour contenir le disque de taille typique ou maximale. Ceci permet le chevauchement des E/S disque entre les lecteurs.

La mise en miroir de disque et le striping de disque peuvent être combinés sur une matrice RAID. La mise en miroir et le striping sont utilisés ensemble dans RAID 01 et RAID 10.

Contrôleur RAID

Un contrôleur RAID peut être utilisé comme niveau d’abstraction entre le système d’exploitation et les disques physiques, présentant des groupes de disques comme des unités logiques. L’utilisation d’un contrôleur RAID peut améliorer les performances et aider à protéger les données en cas de crash.

Un contrôleur RAID peut être utilisé dans des baies RAID matérielles et logicielles. Dans un produit RAID matériel, un contrôleur physique gère la baie. Lorsqu’il se présente sous la forme d’une carte d’interconnexion de composants périphériques ou d’une carte PCI Express, le contrôleur peut être conçu pour prendre en charge des formats de disque tels que SATA et SCSI. Un contrôleur RAID physique peut également faire partie de la carte mère.

Avec le RAID logiciel, le contrôleur utilise les ressources du système matériel. Bien qu’il exécute les mêmes fonctions qu’un contrôleur RAID matériel, les contrôleurs RAID logiciel peuvent ne pas permettre d’augmenter autant les performances.

Si une implémentation RAID logicielle n’est pas compatible avec le processus de démarrage d’un système et que les contrôleurs RAID matériels sont trop coûteux, basés sur un firmware ou un pilote, RAID est une autre option d’implémentation.

Une puce de contrôleur RAID firmware est située sur la carte mère, et toutes les opérations sont effectuées par le CPU, comme pour le RAID logiciel. Cependant, avec le firmware, le système RAID n’est implémenté qu’au début du processus de démarrage. Une fois le système d’exploitation chargé, le pilote du contrôleur prend en charge la fonctionnalité RAID. Un contrôleur RAID firmware n’est pas aussi cher qu’une option matérielle, mais met plus de pression sur le CPU de l’ordinateur. Firmware-based RAID est également appelé Hardware-assisted software RAID, modèle hybride RAID et faux RAID.

Niveaux RAID

Dans l’article de 1988 qui a inventé le terme et cimenté le concept, les auteurs ont distingué six niveaux de RAID, 0 à 5. Ce système numéroté leur a permis de différencier les versions et la façon dont elles utilisaient la redondance et répartissaient les données sur l’ensemble du réseau. Le nombre de niveaux a depuis lors augmenté et a été divisé en trois catégories : niveaux RAID standard, imbriqués et non standard.

Niveaux RAID standard

RAID 0 : Cette configuration a des rayures, mais aucune redondance des données. Il offre les meilleures performances, mais aucune tolérance aux pannes.

RAID 1 : Également connue sous le nom de mise en miroir de disque, cette configuration se compose d’au moins deux lecteurs qui dupliquent le stockage des données. Il n’y a pas de rayures. Les performances de lecture sont améliorées puisque chaque disque peut être lu en même temps. Les performances d’écriture sont les mêmes que pour le stockage sur disque unique.

RAID 2 : Cette configuration utilise le striping sur les disques, certains disques stockant les informations de vérification et de correction d’erreurs (ECC). Il n’a aucun avantage sur RAID 3 et n’est plus utilisé.

RAID 3 : Cette technique utilise le striping et consacre un lecteur au stockage des informations de parité. Les informations ECC intégrées sont utilisées pour détecter les erreurs. La récupération de données est accomplie en calculant le OU exclusif (XOR) des informations enregistrées sur les autres disques. Puisqu’une opération d’E/S s’adresse à tous les lecteurs en même temps, le RAID 3 ne peut pas chevaucher les E/S. Pour cette raison, RAID 3 est la meilleure solution pour les systèmes mono-utilisateur avec de longues applications d’enregistrement.

RAID 4 : Ce niveau utilise de larges bandes, ce qui signifie que vous pouvez lire des enregistrements sur n’importe quel lecteur. Ceci vous permet d’utiliser des E/S qui se chevauchent pour les opérations de lecture. Comme toutes les opérations d’écriture doivent mettre à jour le lecteur de parité, aucun chevauchement d’E/S n’est possible. Le RAID 4 n’offre aucun avantage par rapport au RAID 5.

RAID 5 : Ce niveau est basé sur un striping de niveau bloc avec parité. L’information de parité est rayée sur chaque lecteur, ce qui permet au réseau de fonctionner même en cas de défaillance d’un lecteur. L’architecture du réseau permet des opérations de lecture et d’écriture sur plusieurs lecteurs. Il en résulte des performances généralement meilleures que celles d’un lecteur unique, mais pas aussi élevées que celles d’une baie RAID 0. RAID 5 nécessite au moins trois disques, mais il est souvent recommandé d’utiliser au moins cinq disques pour des raisons de performances.

Les matrices RAID 5 sont généralement considérées comme un mauvais choix pour une utilisation sur des systèmes à forte intensité d’écriture en raison de l’impact sur les performances associé aux informations de parité d’écriture. Lorsqu’un disque tombe en panne, la reconstruction d’une baie RAID 5 peut prendre beaucoup de temps. Les performances sont généralement dégradées pendant la période de reconstruction, et la baie est vulnérable à une défaillance supplémentaire du disque jusqu’à ce que la reconstruction soit terminée.

RAID 6 : Cette technique est similaire au RAID 5, mais inclut un second schéma de parité qui est distribué sur les disques de la matrice. L’utilisation d’une parité supplémentaire permet au réseau de continuer à fonctionner même si deux disques tombent en panne simultanément. Cependant, cette protection supplémentaire a un coût. Les matrices RAID 6 ont un coût par gigaoctet (Go) plus élevé et ont souvent des performances d’écriture plus lentes que les matrices RAID 5.

Niveaux RAID imbriqués

Certains niveaux RAID sont appelés RAID imbriqués car ils sont basés sur une combinaison de niveaux RAID. Voici quelques exemples de niveaux RAID imbriqués.

RAID 10 (RAID 1+0) : Combinant RAID 1 et RAID 0, ce niveau est souvent appelé RAID 10, qui offre des performances supérieures à RAID 1, mais à un coût beaucoup plus élevé. Dans RAID 1+0, les données sont mises en miroir et les miroirs sont rayés.

RAID 01 (RAID 0+1) : RAID 0+1 est similaire au RAID 1+0, sauf que la méthode d’organisation des données est légèrement différente. Plutôt que de créer un miroir et de rayer ensuite le miroir, RAID 0+1 crée un jeu de bandes, puis fait un miroir du jeu de bandes.

RAID 03 (RAID 0+3, également appelé RAID 53 ou RAID 5+3) : Ce niveau utilise le striping (en style RAID 0) pour les blocs de disques virtuels du RAID 3. Ceci offre de meilleures performances que le RAID 3, mais à un coût beaucoup plus élevé.

RAID 50 (RAID 5+0) : Cette configuration combine la parité distribuée RAID 5 avec les bandes RAID 0 pour améliorer les performances RAID 5 sans réduire la protection des données.

Niveaux RAID non standard

RAID 7 : Ce niveau RAID est basé sur RAID 3 et RAID 4, mais ajoute le cache au mélange. Il inclut un système d’exploitation embarqué en temps réel comme contrôleur, la mise en cache via un bus à grande vitesse et d’autres caractéristiques d’un ordinateur autonome. Il s’agit d’un niveau RAID non standard et breveté appartenant à l’ancienne société Storage Computer Corp.

RAID adaptatif : Le RAID adaptatif permet au contrôleur RAID de décider comment stocker la parité sur les disques. Il choisira entre RAID 3 et RAID 5, selon le type de jeu RAID qui fonctionnera le mieux avec le type de données écrites sur les disques.

RAID S (aussi connu sous le nom de RAID paritaire) : Il s’agit d’une autre méthode propriétaire de RAID à parité rayée d’EMC Symmetrix qui n’est plus utilisée sur l’équipement actuel. Il semble être similaire à RAID 5 avec quelques améliorations de performance, ainsi que les améliorations qui viennent d’avoir un cache disque à grande vitesse sur la matrice de disques.

Linux MD RAID 10 : Ce niveau, fourni par le noyau Linux, supporte la création de matrices RAID imbriquées et non standard. Le logiciel Linux RAID peut également prendre en charge la création de configurations RAID 0, RAID 1, RAID 4, RAID 5 et RAID 6 standard.

Avantages du RAID

La performance, la résilience et le coût sont parmi les principaux avantages du RAID. En assemblant plusieurs disques durs, le RAID peut améliorer le travail d’un seul disque dur et, selon sa configuration, augmenter la vitesse et la fiabilité de l’ordinateur après un crash.

Avec RAID 0, les fichiers sont divisés et répartis sur des lecteurs qui fonctionnent ensemble sur le même fichier. Ainsi, la lecture et l’écriture peuvent être effectuées plus rapidement qu’avec un seul lecteur. Les matrices RAID 5 divisent les données en sections, mais consacrent aussi un autre disque à la parité. Ce lecteur de parité peut voir ce qui fonctionne lorsqu’un lecteur non-paritaire tombe en panne, et peut déterminer ce qui se trouvait sur ce lecteur en panne. Cette fonction permet au RAID d’offrir une disponibilité accrue. Avec la mise en miroir, les matrices RAID peuvent avoir deux disques contenant les mêmes données, assurant que l’un continuera à fonctionner si l’autre échoue.

Bien que le terme ” bon marché ” ait été supprimé de l’acronyme, le RAID peut toujours se traduire par des coûts moindres grâce à l’utilisation en grand nombre de disques à bas prix.

Inconvénients de l’utilisation du RAID

Les niveaux RAID imbriqués sont plus coûteux à mettre en œuvre que les niveaux RAID traditionnels car ils nécessitent un plus grand nombre de disques. Le coût par Go de stockage est également plus élevé pour le RAID imbriqué, car de nombreux disques sont utilisés pour la redondance. Le RAID imbriqué est devenu populaire en dépit de son coût parce qu’il aide à surmonter certains des problèmes de fiabilité associés aux niveaux RAID standard.

Initialement, tous les disques durs d’une baie RAID sont installés en même temps. Ainsi, les entraînements ont le même âge et sont soumis aux mêmes conditions de fonctionnement et au même degré d’usure. Mais lorsqu’un disque tombe en panne, il y a une forte probabilité qu’un autre disque du réseau tombe également en panne.

Certains niveaux RAID (tels que RAID 5 et RAID 1) ne peuvent supporter qu’une seule panne de disque, bien que certaines implémentations RAID 1 se composent de plusieurs miroirs, et peuvent donc supporter plusieurs pannes. Le problème est que la matrice RAID et les données qu’elle contient sont laissées dans un état vulnérable jusqu’à ce qu’un lecteur défaillant soit remplacé et que le nouveau disque soit rempli de données. Parce que les disques ont maintenant une capacité beaucoup plus importante qu’au moment de l’implémentation du RAID, il faut beaucoup plus de temps pour reconstruire les disques en panne. Des temps de reconstruction plus longs augmentent le risque qu’un deuxième disque tombe en panne avant que le premier disque ne soit reconstruit.

Même si une deuxième panne de disque ne se produit pas pendant le remplacement du disque défectueux, il y a un risque que les disques restants contiennent des secteurs défectueux ou des données illisibles. Ce type de conditions peut rendre impossible la reconstruction complète du réseau.

Les niveaux RAID imbriqués répondent à ces problèmes en offrant un degré de redondance plus élevé, ce qui réduit considérablement les risques de défaillance au niveau du réseau due à des défaillances simultanées des disques.

L’avenir du RAID

RAID n’est pas tout à fait mort, mais de nombreux analystes disent que la technologie est devenue obsolète ces dernières années. Des alternatives telles que le codage par effacement offrent une meilleure protection des données (bien qu’à un prix plus élevé) et ont été développées dans le but de remédier aux faiblesses du RAID. Au fur et à mesure que la capacité du disque augmente, le risque d’erreur augmente également avec une matrice RAID, et les capacités augmentent constamment.

Vous aimerez aussi :