机器学习读书笔记——模型评估与选择

目录 NLP&ML

以下是在阅读周志华老师的《机器学习》书籍时做的笔记,同时自己也搜索了一些相关的知识,整理如下;

1. 经验误差

学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”;

我们希望得到泛化误差最小的学习器,然而我们事先并不知道新样本是什么样,实际能做的是努力使经验[……]

继续阅读

K均值聚类算法

目录 NLP&ML

0. 简介:

聚类是一种无监督的学习方式,它将相似的对象归到同一个簇中。聚类算法几乎可以应用于所有的对象,簇内的对象越相似,聚类的效果越好;

 

1. 优缺点

  • 优点:容易实现;
  • 缺点:可能收敛到局部最小值,在大规模数据上面收敛比较慢;
  • 数据:数值型数据;
  • [……]

    继续阅读

朴素贝叶斯

目录 NLP&ML

0. 概述

朴素贝叶斯之所以朴素是因为整个形式化过程中只做最原始、最简单的假设;

 

1. 朴素贝叶斯的优缺点:

  • 优点:在数据较少的情况下仍然有效,可以处理多类别问题;
  • 缺点:对于输入数据的准备方式较为敏感;
  • 使用数据类型:标称型数据(目前理解为离散型数据[……]

    继续阅读

Logistic回归

目录 NLP&ML

这几天学习了一下Logistic回归模型,记录一下学习的历程。

1. 主要思想:

  • Logistics回归进行分类的主要思想如下:
  • 根据现有的数据对分类边界建立回归公式,以此进行分类;
  • 回归一词源于最佳拟合,表示要找到最佳拟合参数集;
  • 训练分类器的做法就是寻找最佳[……]

    继续阅读