Windows系统上spark环境搭建
目录
今天测试一下在window上搭建spark环境,此环境只适用于代码测试,实际运行要在集群环境下。
基本环境
我在自己的个人电脑上搭建,环境为 win10 家庭版,内存12G
注意事项
- 本环境搭建目的是测试代码,不做生产环境。
- 计算机环境内存要够用,不然测试都带不起来。
- 本环境没有hdfs,只读取本地文件
环境搭建
下载winutils
spark需要依赖hadoop的部分内容,github上有winutils文件下载 winutils下载 这个文件不大,大概4.7M,可以都下载下来。
配置winutils
把压缩文件中的 hadoop-2.7.1 解压到某个位置(我用的是这个版本,也可以用其他的,这个和等会儿要下载的spark预编译文件有关系)。 添加环境变量,在windows里添加 HADOOP_HOME 的环境变量,指向刚才复制的文件路径
下载spark
解压文件到某个地址
spark测试
打开cmd,cd到spark的bin目录,执行spark-shell。出现spark版本信息,说明配置基本成功。
程序测试
编写Scala程序
此程序段用scala编写,仅供测试;步骤是读取英文小说( 传说中的《时间简史》),通过空格和标点符号分词,然后进行词频处理,词频排序最后进行输出。
|
|
执行命令 run.bat
|
|
完成输出,共 8119行
**注意:**spark在windows上有bug,不能删除临时文件,这个问题暂时没解决,需手动删除。