Installation de Apache Spark sur Archlinux avec yaourt
Apache Spark est un framework d'exécution distribué, tout comme Hadoop, sauf qu'il est bien plus rapide car utilisant essentiellement la mémoire vive, contrairement à Hadoop qui utilise des fichiers sur disques. Toutefois, Spark n'a pas de système de fichier distribué. Ainsi, il s'appuis sur ce bon vieux HDFS de Hadoop.
Puisque nous avons déjà installé Hadoop et HDFS, il nous suffira simplement d'installer Apache Spark tout seul, sans autre dépendance ou paquet supplémentaire. Nous choisirons donc l'archive spark-2.4.3-bin-without-hadoop en version 2.4.3 à ce jour. Python et java devront impérativement être installés au préalable.
Avant de procéder à l'installation, vérifier la version à installer sur https://www-us.apache.org/dist/spark/
Nous choisirons pour cette fois, la voie facile avec "yaourt". En effet, cette commande permet d'installer les paquets depuis le très connu dépôt AUR.
Pour installer yaourt, ouvrir un terminal, et éditer la configuration de pacman pour y ajouter le dépôt :
sudo nano /etc/pacman.conf
Ajouter à la fin :
[archlinuxfr]
SigLevel = Never
Server = http://repo.archlinux.fr/$arch
et sauvegarder. La commande suivante mettra à jour les bases de données et installera l'environnement nécessaire à yaourt ;
sudo pacman -Sy --needed base-devel git wget yajl
Utiliser le choix par défaut pour lancer l'installation. Il restera à installer le package package-query, nécessaire à la construction de yaourt ;
git clone https://aur.archlinux.org/package-query.git
cd package-query/
makepkg -si
cd ..
Tout est prêt pour installer yaourt ;
git clone https://aur.archlinux.org/yaourt.git
cd yaourt/
makepkg -si
cd ..
sudo rm -dR yaourt/ package-query/
Voilà, yaourt est prêt à être utilisé. Pour installer Spark ;
yaourt -S apache-spark
####### Si problème de checksum
Lors de la compilation, il faudra éditer le PKGBUILD pour corriger la version et le checksum. En tête de fichier, renseigner la bonne version dans ;
pkgver=
La variable vaudra 2.4.3 pour notre cas pkgver=2.4.3. Il faudra aussi remplacer plus bas le checksum par celui-ci 54bf6a19eb832dc0cf2d7a7465b785390d00122b pour cette version. Ensuite sauvegarder et continuer la compilation de Spark. Voir ce lien.
#######
Spark sera installé dans le système sous /opt/apache-spark. Il restera a éditer le bashrc pour y intégrer les deux variables d'environnement ;
nano /home/hadoop/.bashrc
Ajouter à la fin :
export SPARK_HOME=/opt/apache-spark
export PATH=$PATH:/opt/apache-spark/bin
puis sourcer ;
source /home/hadoop/.bashrc
Tester Spark avec ;
pyspark
Dernier item à installer, jupyter, qui est une interface web pour utiliser plus confortablement Spark :
yaourt -S jupyter-notebook
Puis dans le bashrc ;
Ajouter à la fin :
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
et sourcer.
Relancer pyspark lancera cette fois-ci le navigateur Internet pointant vers l'adresse du serveur jupyter http://localhost:8888/tree
Et l'interface Python pour entrer les commandes (new / notebook / Python) ;
Par défaut jupyter-notebook est installé avec le support de python3. Si vous voulez ajouter le support de python2, l'installer par :
sudo pacman -S python2-ipykernel
Auteur : Michael Nandzik
Commentaires
Enregistrer un commentaire