Realtime Data Analytics Using Apache Spark

Realtime social media data analytics with Apache Spark, Python, Kafka, Pandas, etc

Description

Project uses Apache Spark functionalities (SparkSQL, Spark Streaming, MLib) to build machine learning models (Batch Processing-Slow) and then apply the model with (Spark Streaming-Fast) to predict new output.

Data MashUp

We utilize historical and streaming data from different social media networks through network provided APIs.

Twitter - https://apps.twitter.com/
MeetUp - https://secure.meetup.com/meetup_api
GitHub - [Guides : https://developer.github.com/v3/, API Calls: https://api.github.com/, API Keys : https://github.com/settings/developers, Tokens : https://github.com/settings/tokens

Tools

DataBricks Community Edition
Anaconda Python 2.7 Distro (Pandas, etc)
Apache Spark (SparkSQL, Spark Streaming, Spark MLib, GraphX)
Apache Kafka (Realtime distributed message passing tool)
Persistent Data Store (RDMBS:MySQL, Columnar:CSV, Casandra, Document:MongoDB)

Required Libraries

pip install Twitter
pip install PyGithub
pip install

Associated Project - R3levancy!

Discovering what everyone is whispering about on social media. Fantastic tool to discover what's really trending across social media and hot topics discovery.

Delivering REALTIME news, events, alerts tailored to users needs and interest.
Search Twitter, Facebook, Google+ for keywords.
Batch process with Spark
Present on web pages, send alerts and push to users.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
json_data		json_data
metastore_db		metastore_db
.gitignore		.gitignore
Analyzing Orange Telecoms Customer Churn Dataset.ipynb		Analyzing Orange Telecoms Customer Churn Dataset.ipynb
CSV - Using Spark SQL with Python on CSV.ipynb		CSV - Using Spark SQL with Python on CSV.ipynb
Data Migration into Different Platforms Using Odo.ipynb		Data Migration into Different Platforms Using Odo.ipynb
Harvest Data From Twitter and Persist in MongoDB.ipynb		Harvest Data From Twitter and Persist in MongoDB.ipynb
Intro_to_Spark.ipynb		Intro_to_Spark.ipynb
Processing Log Files.ipynb		Processing Log Files.ipynb
Python Client for MongoDB.ipynb		Python Client for MongoDB.ipynb
README.md		README.md
Spark Tutorials - Learning Apache Sparks.ipynb		Spark Tutorials - Learning Apache Sparks.ipynb
alice.txt		alice.txt
baby-names.csv		baby-names.csv
derby.log		derby.log
exploring_github.ipynb		exploring_github.ipynb
exploring_meetup.ipynb		exploring_meetup.ipynb
query_twitter.ipynb		query_twitter.ipynb
tweets.csv		tweets.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Realtime Data Analytics Using Apache Spark

Description

Data MashUp

Tools

Required Libraries

Associated Project - R3levancy!

About

Releases

Packages

Languages

ErwinPP/Realtime-Data-Analytics-Using-Spark

Folders and files

Latest commit

History

Repository files navigation

Realtime Data Analytics Using Apache Spark

Description

Data MashUp

Tools

Required Libraries

Associated Project - R3levancy!

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages