大数据技术原理与应用 - (2). 大数据处理框架 Hadoop

【第一篇】 - 大数据基础, 《大数据技术原理与应用, 林子雨》

本篇介绍大数据 (Big Data) 的基本概念、影响、应用领域等,还介绍了大数据处理框架 Hadoop。

第二章介绍了 Hadoop 特性、应用现状,还介绍了 Hadoop 生态系统及其各个组件。


大数据技术原理与应用 - (1). 大数据概述

【第一篇】 - 大数据基础, 《大数据技术原理与应用, 林子雨》

本篇介绍大数据 (Big Data) 的基本概念、影响、应用领域等,还介绍了大数据处理框架 Hadoop。

第一张章介绍了大数据的基本概念、影响、应用领域、关键技术等等内容。


统计学习 - Statistical Learning

统计学习方法笔记总结。haven’t finished yet

1. k近邻法(k-Nearest Neighbors)


直观理解:
  • 分类:在数据中找到与某个点(目标)最近的k个点,把该点(目标)的类分为k个点中多数的类。
  • 回归:在数据中找到与某个点(目标)最近的k个点,k个点的均值为目标点的预测值。

  • 优点:

    • $k$ 近邻法是个非参数学习算法,它没有任何参数( $k$ 是超参数,而不是需要学习的参数)。
    • 近邻模型具有非常高的容量,这使得它在训练样本数量较大时能获得较高的精度。
  • 缺点:

    1. 计算成本很高。因为需要构建一个 $N \times N$ 的距离矩阵,其计算量为 $O(N^2)$,其中 $N$ 为训练样本的数量。
    2. 当数据集是几十亿个样本时,计算量是不可接受的。
    3. 在训练集较小时,泛化能力很差,非常容易陷入过拟合。
    4. 无法判断特征的重要性。

1.1 k近邻模型

  • 模型由三个基本要素——距离度量k值的选择分类决策规则决定。

DME - Data Mining and Exploration (INFR 11007) Review

This is my review note of the DME course (Data Mining and Exploration (INFR11007), 2019) at the University of Edinburgh. The note include every steps to develop machine learning models and related knowledge, e.g., Exploratory Data Analysis (EDA), Data Preprocessing, Modeling and Model Evaluations. Remeber to read the ‘Lab’ section of each chapter


Data Analysis Process

1. Exploratory Data Analysis

1.1 Numberical Data Description

1.1.1 Location

  • Non-robust Measure

    • Sample Mean (arithmetic mean or average): $\hat{x} = \frac{1}{n}\sum_{i=1}^{n} x_{i}$
      • for random variable: $\mathbb{E}[x] = \int xp(x) dx$
  • Robust Measure

    • Median:

      $$ median(x) = \begin{cases} x_{[(n+1)\mathbin{/}2]}& \text{; if $n$ is odd}\\ \frac{1}{2}[x_{(n\mathbin{/}2)}+x_{(n\mathbin{/}2)+1}]& \text{; if $n$ is even} \end{cases} $$
    • Mode: Value that occurs most frequent

    • $\alpha_{th}$ Sample Quantile (rough data point, i.e. $q_{\alpha} \approx x_{([n\alpha])}$)
      • $Q_{1} = q_{0.25}$, $Q_{2} = q_{0.5}$, $Q_{3} = q_{0.75}$

Numpy&Pandas Tutorial

Numpy和Pandas对python中的数据处理很重要。尤其对于数据分析/挖掘,Pandas几乎不可或缺。写tutorial的起因是因为一次面试中被问到numpy中去重用哪个函数,发现自己对numpy的不熟悉,所以希望以此加深印象…(haven’t started yet)


Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×