本篇内容介绍了“spark怎么通过jdbc方式连接关系型数据库”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1 创建sparkSession对象
val sparkSession = SparkSession.builder().appName("findIPRel").getOrCreate()
2 jdbc链接创建DataFrame对象
val jdbcDF = sparkSession.read
.format("jdbc")
.option("driver", "org.postgresql.Driver") //必须添加
.option("url", "jdbc:postgresql://121.36.61.51:5432/xsbigdatadb")
.option("dbtable", "ods_proto_log")
.option("user", "postgres")
.option("password", "root@456")
.load()
其中需要注意的是一定要加上对driver选项的指定,否则就算你的类路径中含有对应数据库的jdbc包,也会报找不到合适的驱动的错误。
3 通过dataFrame对象使用dsl方式对数据进行查询
val ori = jdbcDF.select("srcip","dstip").rdd.map{
case Row(col1:String,col2:String) => (col1,col2)
case _ =>(srcIp,srcIp)
}
4.其他
<dependency>
<groupId>org.postgresql</groupId>
<artifactId>postgresql</artifactId>
<version>42.2.18</version>
</dependency>
“spark怎么通过jdbc方式连接关系型数据库”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注天达云网站,小编将为大家输出更多高质量的实用文章!