COSC-282 Big Data Analytics - Fall 2015
Department of Computer Science
Georgetown University
Course Description: |
Today, information retrieval and Web search technologies play a central role in information seeking and knowledge distribution across the globe. The growth of the Web and the improvements in data creation, collection, and use have lead to tremendous increase in the amount and complexity of the data that a search engine needs to handle. "Big data" presents challanges to search engines from three perspectives: bigger data volume, higher data complexity, and faster data change rate. The increase of the magnitute and complexity of the data has become a major drive for new information retrieval algorithms and technologies that are scalable, highly interactive, and able to handle complex and dynamic information seeking tasks in the big data era. In this class, we will focus on information retrieval algorithms and programming based on Big Data. We will cover programming models that allow us to easily distribute computations across large computer clusters. In particular, we will teach Apache Spark, which is an open-source cluster computing framework that has soon become the state-of-the-art for big data programming. In contrast to Hadoop's MapReduce paradigm, Spark's in-memory primitives provide performance up to 100 times faster for certain applications. Spark provides clean API in JAVA, Scala, Python and R. This course will provide an introduction to Spark, focusing specifically on search engine design and programming upon Spark and Scala and "thinking at scale". We will also cover other components in the Spark ecosystem, such as machine learning with MLib. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Prerequisites: |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Time and Location: |
Monday, Wednesday 11:00-12:15. Reiss 112 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Instructor: | Prof. Grace Hui Yang | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TA: | Jiyun Luo Hongkai Wu | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Textbooks: |
Here is the Amazon link to this book.
Here is the Amazon link to this book. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Other Readings: |
Selected papers or book chapters will be made available before lectures. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Grading: | Homeworks 70% (7% each), Quizzes 5%, Midterm exam 10%, Final exam 15%. Optional Homework 10%. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Resources: | Piazza link: https://piazza.com/georgetown/fall2015/cosc282/home Blackboard link: https://uis.georgetown.edu/services/blackboard | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Policies: |
Homework policy: All homeworks
should be submitted through Blackboard. Homeworks are due 11:59pm on
the due date. Three late days in total are allowed without penalty for
the entire semester. For instance, you may be late by 1 day for homework 1
and be late by 2 days for homework 2. Once the three-late-dates are
used, you will be penalized according to the policy below:
Integrity policy: All experimental results turned in must be true. No copying/cheating is allowed. Please check Georgetown's Honor system. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Syllabus |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Companies using Spark: |
![]() |