PySpark হল Apache Spark-এর Python API, এটি ওপেন সোর্স, distributed computing framework এবং রিয়েল-টাইম, large-scale data processing এর কাজে ব্যবহৃত হয়
SparkSession এ Pyspark initialize করুন
from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('randomName').getOrCreate()Data ফিল্টার করা
df.filter(df['age']>24).show()Data lambda ফাংশন দিয়ে Sort করা
df.sortBy(lambda x: x[1]).collect()Duplicate Data ড্রপ করা
df.dropDuplicates()null Data সরানো
df.na.drop().show()null value replace করা
df.na.fill(50).show()নির্দিষ্ট কলাম show করা
df.select('columnName').show()ডাটাফ্রেম তৈরী করা
from pyspark.sql.types import*spark.createDataFrame([(1, 'a'), (2, 'b')], ['num', 'letter'])CSV file লোড করা
df = spark.read.load('/home/Dataset/Case.csv', format = 'csv', sep = ',', inferScheme = True, header = True)Txt file লোড করা
df = spark.read.text('people.txt')JSON file লোড করা
df = spark.read.json('customer.json')কলামের নাম ও ডাটা টাইপ দেখা
df.dtypesdf এর কনটেন্ট show করা
df.show()df এর প্রথম ১০টি row দেখা
df.head(10)df এর প্রথম row দেখা
df.first()Row এর সংখ্যা দেখা
df.count()df এর Schema দেখা
df.printSchema()df এর logical ও physical plan দেখা
df.explain()