Installation de Apache Spark sur Archlinux avec yaourt


Apache Spark est un framework d'exécution distribué, tout comme Hadoop, sauf qu'il est bien plus rapide car utilisant essentiellement la mémoire vive, contrairement à Hadoop qui utilise des fichiers sur disques. Toutefois, Spark n'a pas de système de fichier distribué. Ainsi, il s'appuis sur ce bon vieux HDFS de Hadoop.

Puisque nous avons déjà installé Hadoop et HDFS, il nous suffira simplement d'installer Apache Spark tout seul, sans autre dépendance ou paquet supplémentaire. Nous choisirons donc l'archive spark-2.4.3-bin-without-hadoop en version 2.4.3 à ce jour. Python et java devront impérativement être installés au préalable.

Avant de procéder à l'installation, vérifier la version à installer sur https://www-us.apache.org/dist/spark/

Nous choisirons pour cette fois, la voie facile avec "yaourt". En effet, cette commande permet d'installer les paquets depuis le très connu dépôt AUR.

Pour installer yaourt, ouvrir un terminal, et éditer la configuration de pacman pour y ajouter le dépôt :

sudo nano /etc/pacman.conf
      Ajouter à la fin :
      [archlinuxfr]
      SigLevel = Never
      Server = http://repo.archlinux.fr/$arch


et sauvegarder. La commande suivante mettra à jour les bases de données et installera l'environnement nécessaire à yaourt ;

sudo pacman -Sy --needed base-devel git wget yajl

Utiliser le choix par défaut pour lancer l'installation. Il restera à installer le package package-query, nécessaire à la construction de yaourt ;

git clone https://aur.archlinux.org/package-query.git
cd package-query/
makepkg -si
cd ..


Tout est prêt pour installer yaourt ;

git clone https://aur.archlinux.org/yaourt.git
cd yaourt/
makepkg -si
cd ..
sudo rm -dR yaourt/ package-query/


Voilà, yaourt est prêt à être utilisé. Pour installer Spark ;

yaourt -S apache-spark

    ####### Si problème de checksum

    Lors de la compilation, il faudra éditer le PKGBUILD pour corriger la version et le checksum. En tête de fichier, renseigner la bonne version dans ;

    pkgver=

    La variable vaudra 2.4.3 pour notre cas pkgver=2.4.3. Il faudra aussi remplacer plus bas le checksum par celui-ci 54bf6a19eb832dc0cf2d7a7465b785390d00122b pour cette version. Ensuite sauvegarder et continuer la compilation de Spark. Voir ce lien.

    #######
Spark sera installé dans le système sous /opt/apache-spark. Il restera a éditer le bashrc pour y intégrer les deux variables d'environnement ;

nano /home/hadoop/.bashrc
      Ajouter à la fin :
      export SPARK_HOME=/opt/apache-spark
      export PATH=$PATH:/opt/apache-spark/bin


puis sourcer ;

source /home/hadoop/.bashrc

Tester Spark avec ;

pyspark

Dernier item à installer, jupyter, qui est une interface web pour utiliser plus confortablement Spark :

yaourt -S jupyter-notebook

Puis dans le bashrc ;

      Ajouter à la fin :
      export PYSPARK_DRIVER_PYTHON=jupyter
      export PYSPARK_DRIVER_PYTHON_OPTS='notebook'


et sourcer.

Relancer pyspark lancera cette fois-ci le navigateur Internet pointant vers l'adresse du serveur jupyter http://localhost:8888/tree


Et l'interface Python pour entrer les commandes (new / notebook / Python) ;


Par défaut jupyter-notebook est installé avec le support de python3. Si vous voulez ajouter le support de python2, l'installer par :

sudo pacman -S python2-ipykernel

Auteur : Michael Nandzik

Commentaires

Posts les plus consultés de ce blog

Installation de HIVE sur Archlinux

AJAX du point de vue PHP - PHP Route