Статистические данные для проекта Big Data. Где найти?

Здравствуйте!
Есть задача создать программный модуль анализа данных для проекта "Big Data здоровье и окружающая среда".
Смысл заключается в том, чтобы с помощью машинного обучения найти корреляцию между показателями, содержащимися в базе статистических данных о показателях здоровья человека и показателях окружающей среды, и в дальнейшем делать прогноз влияния изменений показателей окружающей среды на показатели здоровья человека.
Первый вопрос: Подскажите, пожалуйста, где найти большое количество статистических данных?
Второй вопрос: С помощью каких средств программирования целесообразнее выполнить задачу?
Спасибо!