出于书中的一些数学算法仍旧有一定难度的,只记录一些对本人有启示的Action

那本书是在天涯论坛里乱转时意识的,报着对数学的确定性兴趣就买下了。由于书中的一些数学算法如故有一定难度的,且与自己的其实工作相关性不太大,根据Action笔记的构思,只记录一些对自家有启迪的Action。

读书笔记:《数学之美》

那本书是在今日头条里乱转时意识的,报着对数学的斐然兴趣就买下了。由于书中的一些数学算法照旧有一定难度的,且与自身的实际工作相关性不太大,按照Action笔记的沉思,只记录一些对自家有启示的Action。

 

数量解析?他们一度起来用了?

 

第1章 文字和言语 vs 数字和新闻

罗塞塔石碑记录了3种语言,难怪我用的一款越发不错的罗斯tta软件是学语言用的。

看看《从一到无穷大》那本书。从腾讯网上找到了,一本古老的书,抽时间看看。

 

 

第1章 文字和语言 vs 数字和信息

罗塞塔石碑记录了3种语言,难怪我用的一款相当不易的罗斯tta软件是学语言用的。

探望《从一到无穷大》那本书。从搜狐上找到了,一本古老的书,抽时间看看。

 

第2章 自然语言处理 — 从规则到计算

图灵测试(Turing
Test)—-令人和机械举办互换,如果人不知所可断定自己调换的对象是人或者机器时,就认证那一个机器有智能了。

自然语言处理选取句法分析和语义领会仍然走不通,周到地转车计算模型方法了。难道自然语言经过了几千年的演化,已经变得一定复杂,许多语法并不是明确的而是模糊的?已经不可能用总结机来处理?照旧句法分析的算法需要一场革命性的革命?

 

标题取得很知足,其实就是《数学之美》那本书的读书笔记。那是每一个想学编程了然总括机的人都不该错过的好书,必须引进

第2章 自然语言处理 — 从规则到总计

图灵测试(Turing
Test)—-令人和机具进行调换,假设人无法断定自己沟通的对象是人或者机器时,就证实这么些机器有智能了。

自然语言处理选取句法分析和语义明白甚至走不通,周密地转发计算模型方法了。难道自然语言经过了几千年的衍变,已经变得格外复杂,许多语法并不是妇孺皆知的而是模糊的?已经不能够用总括机来拍卖?仍旧句法分析的算法必要一场革命性的变革?

 

第3章 计算语言模型

标准化几率P(w2|w1):已经率先个词w1的前提下,首个词w2出现的几率。

P(w2|w1) ≈ #(w1, w2) / #(w1)

其中:#(w1,
w2)是w1,w2多个词再而三出现的次数,#(w1)是w1现身的次数,上述公式是在统计数据相当大的境况下建立。

零几率问题的拍卖:古德-图灵估计(Good-Turing Estimate)

 


看那些名字,你或许认为它就是一本讲数学的书,觉得无聊而从来就想扔掉。但它事实上是一本格外适合于机器学习和算法入门的处理器广泛书籍。小编把他搞各样科
研,以及在GOOGLE多年做事的耳目,都缩水在那本书里,用浅显易懂的言语,给我们做了四回机器学习科普,厘清了各类概念数学原理算法的前生今生,
还明白它们怎么在检索世界、自然语言识别领域大放光彩。

第3章 计算语言模型

规格几率P(w2|w1):已经率先个词w1的前提下,第一个词w2出现的几率。

P(w2|w1) ≈ #(w1, w2) / #(w1)

其中:#(w1,
w2)是w1,w2七个词连续出现的次数,#(w1)是w1出现的次数,上述公式是在计算数据万分大的状态下树立。

零几率难点的拍卖:古德-图灵推测(Good-Turing Estimate)

 

第4章 谈谈中文分词

用计算模型能够很好地解决普通话分词难题。

 

 

第4章 谈谈汉语分词

用总计模型可以很好地解决普通话分词难点。

 

第5章 隐含马尔可夫模型

这一章与几率论、随机进度联系起来了,想想大学时学的一点点几率论的课程,大概一贯不怎么纪念了。

那么话题扯回来,为何看完那本书,会有种——数据解析,他们早已起来在做——的痛感吗?

第5章 隐含马尔可夫模型

这一章与几率论、随机进程联系起来了,想想大学时学的一点点几率论的课程,大致向来不怎么记念了。

第6章 新闻的襟怀和效率

以前做数据压缩时也遇到过Shannon给熵做的概念,给定随机变量X,fX为X的几率密度函数,则其熵h(X)为:

图片 1

一个离散化的公式,对于离散信号X={x1, x2, …,
xk
},
P(X=xi)表示xi并发的概率,则该信号的音信熵为:

图片 2

 

第6章 音信的心胸和成效

开首做数据压缩时也蒙受过Shannon给熵做的概念,给定随机变量X,fX为X的几率密度函数,则其熵h(X)为:

图片 3

一个离散化的公式,对于离散信号X={x1, x2, …,
xk
},
P(X=xi)表示xi出现的几率,则该信号的音讯熵为:

图片 4

第7章 贾里尼克和当代语言处理

这一章里谈到少年时的指导难点,有五个观点相比倾向。中学阶段花了很长日子比同伴多读的教程,在高等高校之后可以用卓殊短的小运读完,因为高校时代的掌握力比中学时要强许多倍。学习(和教化)是一个人终身的进度,中国的男女由于中学阶段读了大气的课本,在学院未来往往厌倦了阅读。

骨子里,固然近些年来数据解析数据挖掘机器学习的概念尤其尤其火,可能过多个人会觉得那是近几年才逐渐敬服起来并摇身一变一安全套方法论的新东西。但是事实上早在处理器设计的初端,数据解析与发掘,就利用于写代码搞算法的上上下下了。

第7章 贾里尼克和现代语言处理

这一章里谈到少年时的教诲难题,有四个观点比较帮助。中学阶段花了很长日子比同伴多读的学科,在高等高校之后可以用相当短的日子读完,因为高校时期的了然力比中学时要强许多倍。学习(和教育)是一个人平生的长河,中国的儿女由于中学阶段读了大气的课本,在大学将来往往厌倦了翻阅。

第8章 不难之美

此处涉及了盘活搜索的一个经验,最基本的渴求就是每一日分析10-20个不好的查找结果。对于人工智能中的机器博弈来说,每日做10-20个不佳的框框评估的解析是否也是一种进步的方法?

 

抽象点来说,是算各样算法的复杂度。具体一点,从一个google搜索引擎的用度,要求科研人员反反复复去衡量总计机资源与产品成效间的最佳解,到在种种费用中不停地追求打字速度最优,分析瓶颈,都是总括数据、分析难点、抽象解决的老三套。曾听人吐槽说,“根本没有啥样新的多寡数学家,很多课程本来就是树立在数额统计与分析基础上的,数据物理学家平昔就存在”。

第8章 简单之美

此处涉及了搞好搜索的一个经验,最基本的须求就是每一日分析10-20个不佳的摸索结果。对于人工智能中的机器博弈来说,每一天做10-20个不好的规模评估的辨析是还是不是也是一种提升的艺术?

 

第9章 图论和互连网爬虫

这里提到了人工智能中难题求解算法中常用的广度优先搜索BFS和纵深优先搜索DFS。

正因如此,我们得以说,数据解析和挖掘,早就被运用在微机科学的所有了。所以脱离了编程和对电脑了然的机器学习和数据解析是在耍流氓。相反来,倘若数据解析学习碰到瓶颈,通过尤其学习算法及其实际应用,了然数据结构和筹划,精晓编程,也许能更快捷得突破瓶颈期。

第9章 图论和网络爬虫

此地提到了人工智能中难题求解算法中常用的广度优先搜索BFS和纵深优先搜索DFS。

第10章 PageRank — 谷歌的民主表决式网络名次技术

没看懂,未来再说。

 

第10章 PageRank — 谷歌的民主表决式互连网排行技术

没看懂,将来再说。

第11章 如何规定网页和询问的相关性

TF-IDF

 

而上述那么些考虑,正是《数学之美》里向我们来得的神奇世界。

第11章 怎样确定网页和询问的相关性

TF-IDF

 

第12章 地图和地面搜索的最焦点技术-有限状态机和动态规划

 

 

第12章 地图和地方搜索的最宗旨技能-有限状态机和动态规划

 

第13章 谷歌 AK-47 的设计者

 

其它,在那本书里,小编还把他这几个年科研的各类经历道理,穿插在一个个案例中讲述。譬如说,“大概模型在工业界的实用性”,认为“学技术学‘道’比学‘术’更加重点”等等。他还反复强调要多分析极度结果,认为简单有效的缓解方案,往往建立在对细节丰硕的钻研以及考虑上。这几个对于经验不足的人,确实是非凡宝贵的财富。

第13章 谷歌 AK-47 的设计者

 

第14章 余弦定理和音讯的归类

原本余弦定理中总结向量的夹角,还足以用来比较两组特征的相似度,那是率先次翻看本书时让自家感兴趣的事。一个中学时学到的学识,实际上在实际中是有
许多选拔的。假若中学老师知道那些周边的使用,可能会激起学生的无比兴趣,当你精晓空间中的夹角实际上可以映射为现实生活中的其余性质,展开了那种想象
后,数学知识才能当真发挥其效果。

cos(A) = (b*b + c*c – a*a) / (2*b*c)

 

第14章 余弦定理和消息的分类

原先余弦定理中总计向量的夹角,仍可以用来相比两组特征的相似度,那是率先次翻看本书时让自身感兴趣的事。一个中学时学到的文化,实际上在实质上中是有那一个应用的。如若中学老师知道这个常见的运用,可能会激起学生的无限兴趣,当你通晓空间中的夹角实际上可以映射为现实生活中的其余性质,展开了那种想象后,数学知识才能当真发挥其成效。

cos(A) = (b*b + c*c – a*a) / (2*b*c)

第15章 矩阵运算和文本处理中的七个分类难点

那边提到了矩阵的奇异值分解,在大学时自己直接没搞了解矩阵的一大堆运算是怎么用的。

 

说到结尾,我反正是认认真真把那本书看完了。不过出于《数学之美》有三十一个章节,大致种种章节都在讲差其他焦点,新闻量较大。为了将来按图索骥,继续长远学习,特在那里花了些日子梳理了弹指间各章节的脉络和正规词汇/人名,供大家参考。

第15章 矩阵运算和文本处理中的七个分类难题

此地提到了矩阵的奇异值分解,在大学时我直接没搞掌握矩阵的一大堆运算是怎么用的。

 

第16章 音信指纹及其使用

那边提到了更好的任意数生成算法—-Mason旋转算法Mersenne
Twister,正好我的Zobrist
HASH算法中必要用到随机数,想试试那更好的任性数能不可能减小部分HASH争执?从网上搜索了一下找到了相关C语言代码,在本人的Visual
Studio 2010中出现链接错误,还没找到原因。

那边涉及的新闻指纹与中国象棋局面表示中的Zobrist HASH算法是类似的。

 

 

第16章 音信指纹及其使用

此处涉及了更好的擅自数生成算法—-梅森旋转算法Mersenne
Twister,正好我的Zobrist
HASH算法中要求用到随机数,想尝试这更好的妄动数能不可能压缩部分HASH顶牛?从网上查找了一晃找到了相关C语言代码,在自我的Visual
Studio 2010中出现链接错误,还没找到原因。

此处涉及的音信指纹与中国象棋局面表示中的Zobrist HASH算法是相近的。

 

第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

关于大素数分解的加密算法

 

 

第17章 由电视机剧《暗算》所想到的 — 谈谈密码学的数学原理

至于大素数分解的加密算法

 

第18章 闪光的不肯定是纯金 — 谈谈搜索引擎的反作弊难题

不关心。

 

后边的内容实在读不下来了,也不关心了,唯有布隆过滤器或是对本身还有些用,未来再说吧,把章节的称号放在此处呢。

 

第19章 谈谈数学模型的要害

第20章 不要把鸡蛋置于一个篮子里 — 谈谈最大熵模型

第21章 拼音输入法的数学原理

第22章 自然语言处理的教父马库斯和她的不错弟子们

第23章 布隆过滤器

第24章 马尔可夫链的增添 — 贝叶斯互连网

第25章 条件随机场和句法分析

第26章 维特比和她的维特比算法

第27章 再谈文本自动分类难题 — 期望最大化算法

第28章 逻辑回归和查找广告

第29章 各样击破算法和谷歌 云总计的根底

章节

第18章 闪光的不自然是黄金 — 谈谈搜索引擎的反作弊难点

不关心。

 

末端的情节其实读不下来了,也不体贴了,唯有布隆过滤器恐怕对本人还有些用,以后再说吧,把章节的称呼放在那里吧。

 

第19章 谈谈数学模型的重点

第20章 不要把鸡蛋置于一个篮子里 — 谈谈最大熵模型

第21章 拼音输入法的数学原理

第22章 自然语言处理的教父马库斯和她的卓越弟子们

第23章 布隆过滤器

第24章 马尔可夫链的恢宏 — 贝叶斯互连网

第25章 条件随机场和句法分析

第26章 维特比和她的维特比算法

第27章 再谈文本自动分类难题 — 期望最大化算法

第28章 逻辑回归和查找广告

第29章 种种击破算法和谷歌 云总括的功底

概述

关键字

第1章 文字和言语 vs 数字和信息

人人在自然语言处理里早已走过弯路——过于关切句法和文书分析。但那种艺术复杂度过大且不能很好适配新句法,1970s后人们提议基于[通讯系统]和[饱含马尔科夫模型]的自然语言处理方法。而随着电脑技术的腾飞,[统计]措施更为人所知,在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译]

机械智能 图灵测试 隐含Marco夫模型 FrederickJelinek IBM华生实验室
PeterBrown

第2章 自然语言处理——从规则到统计

第3章 计算语言模型

用计算的不二法门做自然语言处理,不再追究句法是不是合理,而是统计哪个种类句法在语料库里最常出现。
依据[苏梅岛借使]/条件几率,总括语言模型的推测变得愈加简约实用,逐步在分词、语音识别、机器学习里大展头角。

杜德茅斯集会 马尔科夫倘使 Marco夫链 隐含马尔科夫模型 二元模型
BigramModel 语料库 大数定理 罗丝tta

第4章 谈谈汉语分词

[计算语言模型]固然实惠,但在实质上工作中须要更连忙的算法。
[通讯模型]的引入,把自然语言处理等价于通讯模型的解码难点。结合[饱含马尔科夫模型]。让分词难点/多义词难题,成为[更小范围]内的口径概率,升高了运算效用

查字典 最少次数的分词理论 分词二义性 郭进 动态规划 孙茂松 吴德凯

第5章 隐含马尔可夫模型

通讯模型 LenoardBaum 随机变量 随机进程 独立输出要是 维特比算法 语音识别

第6章 音信的气量和职能

引入[信息熵]概念,把[信息]与[不明确]构成起来。裁减音信[不引人侧目],其实是一个尺度几率(已知Y,若X/Y相关,则能更精通X),为[互信息]

香农 音讯熵 比特 新闻量 冗余度 通讯的数学原理 消除不确定性 联合几率分布
条件几率分布 互音讯 语料  大卫Yarowsky 

第7章 贾里尼克和当代语言处理

人物传记

新闻六因素 RomanJakobson 最大熵迭代算法 BCJR算法 维特比算法 ICASSP CLSP 

第8章 容易之美-布尔代数和摸索引擎的目录

找寻的骨干:按[图]下载尽可能多的网页,用[TRUE/FALSE]确立网页根本词的目录,利用[PageRank]决定排序,再经过[TF-IDF]衡量关键词权重,升高查询与网页之间的[相关性]

二进制 布尔代数 GottfriedLeibniz 二进制总括机 香农 量子力学 离散数学
索引 分布式存储

第9章 图论和互连网爬虫

离散数学 数理逻辑/布尔运算 图 遍历Traverse 广度优先搜索 深度优先搜索 弧
互联网爬虫 散列表HashTable

第10章 PageRank -谷歌的民主表决式网名

网页质量新闻 PageRank 民主决策 链接权重 稀疏矩阵总括 系统论 音讯寻找课程

第11章 如何规定网页和询问的相关性

几率模型 TF-IDF 关键词权重 词频 甘休词 凯琳SparckJones 文献学学报
交叉熵 Kullback-LeiblerDivergence

第12章 有限状态机和动态规划——地图和当地搜索的最宗旨技能

利用[有数状态机]进展地址分析(省/市/县稳住识别),又因为微微地点不标准,要用到[基于几率的马尔科夫链]开展分析。而在三个地方之间设计路线,采纳[图]里的[动态规划]进行高效搜索

些微状态机 有向图 有向弧 起头处境 终止状态 模糊匹配 基于几率的少数状态机
离散的马尔科夫链 AT&T 加权图 最短路径 动态规划DynamicProgramming 

第13章 谷歌 AK-47 的设计者 — 阿米特·士

人物传记:寻找不难可行的解决措施

AmitSinghal Ascorer 互联网检索中的作弊难题 模型压缩 简单方法的可行
UdiManber 文本的句法分析 机器学习 分析不佳的结果

第14章 余弦定理和音信的归类

对于音讯分类,利用TF-IDF描绘新闻文本(特征向量),认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时,须要引用[矩阵]中的[奇异值分解],以裁减总计进度。其它,由于数据量过大,工业界在探究如MapReduce等并行算法。

资讯活动分拣 TF-IDF 特征向量 特征向量之间的相似性 向量代数 余弦定理
余弦相似性 自底向上不断统一 RaduFlorian 自动分拣 诗歌评审 

第15章 矩阵运算和文本处理中的八个分类难点

数值分析 线性代数 矩阵 奇异值分解 SVD 加权词频 矩阵特征值 数值分析
奇异值分解的并行算法 

第16章 音讯指纹及其使用

在[网络爬虫]时,要在[散列表]中著录已经走访过的网址。当长文本不便利数据匹配,为了效用,利用[伪随机数发生器],将新闻成为二进制随机数。这么些可用来[加密]、[小说相似度匹配]等领域

音信熵 无损压缩编码 散列表 随机映射 128位二进制 音讯指纹
伪随机数爆发器算法 PRNG Mason旋转算法Mersenne Twister
加密的伪随机数暴发器CSPRNG 判断集合基本相同 想死哈希 关键帧的领到
摄像特征提取

第17章 由电视机剧《暗算》所想到的 — 谈谈原理

凯撒大帝 音信论 跳舞的小丑 反函数 自变量 亚德利赫伯特OsborneYardley
中国黑室 公开秘钥 RSA算法 Rabin算法 互素 公约数

第18章 闪光的不自然是黄金

除去排序和六柱预测关性以外,要去掉噪音[找寻引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积],对全文举行[句法分析],找到[提及]信息,判断音信源的权威性

网页排行作弊 反作弊 重复第一词 买买链接 通讯模型 抗噪声 振幅相反
轿车噪声 解卷积 卷积 相关性 高斯白噪声 抗苦恼 出链 余弦距离 图论 Clique
去噪音 搜索结果权威性 提及 句法分析 音讯源描述 互音讯 聚合 收敛

第19章 谈谈数学模型的紧要

透过天理学的事例再度强调数学模型的要害

椭圆模型

第20章 不要把鸡蛋置于一个篮子里 — 谈谈型

最大熵模型,即保留却不得不确定性,那是[指数模型]。在无数地点都用到

最大熵 椭圆模型 AT&T 不确定性 指数模型 I.Csiszar 归一化因子
AdwaitRatnaparkhi 词性标识系统 句法分析器 对冲基金 文艺复兴技术公司

第21章 拼音输入法的数学原理

输入法的功效,利用词和上下文相关性升高效用。涉及[动态规划]及[语料库]

平均击键次数 消除歧义香浓第一定理 新闻熵 词库 语言模型 概率论 动态规划
通讯难点 有向图

第22章 自然语言处理的教父马库斯和他的学生

介绍部分数学家的研商思路

Mitch马库斯 LDC语料库句子分析 分析器 Collins 基于变换规则的机械学习情势词性标注

第23章 布隆过滤器

用于判断一个因素是或不是在一个集合里

散列表 布隆过滤器 二进制向量 随机映射 音讯指纹 垃圾邮件过滤

第24章 马尔可夫链的扩张 — 贝叶斯网络

介绍[马尔科夫]洋洋洒洒推广。如[贝叶斯互连网]是马尔科夫链的放大,解决三个节点的几率统计,在[分词]上有出色成就。而[原则随机场]类似于[贝叶斯网络],只可是它属于[无向图],与[最大熵]调换起来。别的,[括括号]把[文法分析]与数学模型关联起来,更有效开展文本分析。

贝叶斯网路 可相信度 贝叶斯公式 联合几率分布 结构陶冶 参数锻练 NP完备难点词分类 文本分类 Rephil局地最优 蒙特卡罗方法 EM进程

第25章 条件随机场和句法分析

一道几率分布 文法分析 语义分析 拉纳帕提 括括号 最大熵模型 对数函数
浅层分析 条件随机场 无向图 隐含马尔科夫模型 边缘分布 大数定理 指数函数
Gparser 犯罪预测 形式识别 机器学习 生物总计 预防犯罪率

第26章 维特比和她的维特比算法

[维特比算法]属于[动态规划算法],针对[篱笆互连网]那种不一样平时的图,可解决大多[带有马尔科夫链]的模型。

AndrewViterbi 德州仪器 动态规划 篱笆网络 有向图最短路径 隐含马尔科夫模型
状态跳跃 状态自环 输入法解码 扩频传输 噪音 时分多址 频分多址 FDMA TDMA
CDMA MediaTek集团

第27章 再谈文本自动分拣难题 — 期望最大化算法

介绍了如Kmeans聚类,逻辑回归,分布式运算、人工神经网络的底蕴内容。

盼望最大化 文本活动分拣 自底向上 文本主旨 收敛 迭代 

第28章 逻辑回归和搜索广告

逻辑回归 一层的人造神经网络 训练最大熵模型 IIS

第29章 种种击破算法和谷歌 云计算的功底

分治算法 各样击破 MapReduce 归并排序

第30章 谷歌(Google)大脑和人工神经互连网

深度学习 谷歌(Google)大脑 有向元 贝叶斯互联网 人工神经互联网

第31章 大数据

切比雪夫不等式

相关文章