数据预处理
数据预处理是进行机器学习的关键步骤,通常也叫做feature engineering。 这里简单提一下遇到缺失值的四种情况 如果缺值的样本占总数的比例较高,我们就会直接将其舍弃,作为特征加入反而会带入noise,影响结果 如果缺值的样本适中,而该属性非连续值特征属性(比如类目属性),那就把NaN作 ...
Read more
数据分析与数据可视化
数据概览数据基础概览我们首先使用pandas内置的统计函数来对其做一个基本的概览 12data = pd.read_csv('train.csv')print(data.info()) 由此得到输出 12345678910111213141516171819<class 'pand ...
Read more
动态规划第二讲
最长公共子序列问题(homework)题目大意经典的LCS问题,题目的意思是给出两个字符串,让我们找出他们之间的最大公共子序列(子序列是不用连续的) 实现思路这里说的是一种标准动态规划思路(其实和记忆化搜索等价)。我们这里首先规定dp[ i ] [ j ]为第一个串1-i个字符和第二个串1-j个字符 ...
Read more
Titanic基本介绍
背景概述首先给出官方页面链接:https://www.kaggle.com/c/titanic 问题背景来源于历史上经典的泰坦尼克号沉没事件。在这里我们给出包括年龄,票价等一系列信息,让我们来预测一些人的生存情况,如果预测生存则是1,无法生存则是0 数据概览给了三个文件,一个是提交格式样例,另外两个 ...
Read more
递归第三讲
合并排序(homework)题目大意(采用下列方法之一)实现合并排序,使用PPT上数据 递归 消除递归 自然合并排序 实现思路在递归实现方法中,首先是类似二分的递归向下拆分,在合并的时候主要是要注意指针的临界问题。 在非递归中,省去了拆这一步,直接每次对步长乘2,达到类似的合并效果,但是需要考虑边 ...
Read more
递归第二讲
分治法的基本步骤递归地求解问题,在每层递归中应用三个步骤: 分解(Divide):将问题划分为一些子问题。子问题的形式与原问题一样,只是规模更小; 解决(Conquer):递归地求解子问题。若子问题规模较小而容易被解决则直接求解,否则递归地解各个子问题; 合并(Combine):将子问题的解 ...
Read more
动态规划第一讲
动态规划方法的总体思想是什么,比较它与分治法的异同动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题 但是经分解得到的子问题往往不是互相独立的。用分治法来解,最后解决原问题需要耗费指数时间。因此有些子问题被重复计算了许多次。 如果能够保存已解决的子问题的答案,而在需要时再找出已求 ...
Read more
递归第一讲
什么是递归算法与递归函数直接或间接地调用自身的算法称为递归算法。 用函数自身给出定义的函数称为递归函数 递归函数的两个基本要素及递归算法的两个基本部分分别是什么递归函数的两个要素递归边界,也就是函数的初始值,每一个递归函数都必须具备非递归定义的初始值,否则,递归函数就无法计算。 递归关系式,用较小自 ...
Read more
使用预训练的卷积神经网络
由于学到的特征在不同问题之间有着良好的可迁移性,使得深度学习对小数据问题非常有效 使用预训练网络有两种方法:特征提取(feature extraction)和微调模型(fine-tuning) 特征提取特征提取是使用之前网络学到的表示来从新样本中提取出有用的特征。然后将这些特征输入一个新的分类器,从 ...
Read more
在小型数据集上从头开始训练一个卷积神经网络
数据处理123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566import os, shutilorigin ...
Read more