自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Data _designer

专注数据挖掘,机器学习,数据库,后端开发等领域,开发语言多样。

  • 博客(245)
  • 资源 (6)
  • 收藏
  • 关注

原创 强化学习中的一些疑惑与求解

Q值和V值的互相转换:Q和V本质上可以通过Bellman方程相互转化Policy-Iteration & Value iteration:还是结合例子看比较直观;策略迭代(选定策略,更新策略),价值迭代(多次迭代直至收敛)

2021-04-11 15:05:14 127

原创 动手学习深度学习-一些不能细想的问题(持续更新)

推荐系统有可能形成反馈循环:推荐系统首先会优先推送一个购买量较大(可能被认为更好)的商品,然而目前用户的购买习惯往往是遵循推荐算法,但学习算法并不总是考虑到这一细节,进而更频繁地被推荐。强化学习的目标是产生一个好的策略(policy)。 强化学习 agent 的选择的”动作“受策略控制,即一个从环境观察映射到行动的功能。当环境可被完全观察到时,我们将强化学习问题称为马尔可夫决策过程(markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(context

2021-03-24 20:58:24 118

原创 数据分析-全流程(持续更新)

# 导入包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlineimport warningswarnings.filterwarnings('ignore')# 加载数据data = pd.read_csv()# 查看数据基本信息data.head()data.columnsdata.info()data.shape(.

2020-12-29 20:09:35 92

原创 MultiTask Learning Survey

原文链接:MultiTask Survey一、常见Multi-Task 架构Hard和Soft区分:Hard共享底层参数,在高层提取中相互独立;Soft使用十字绣的形式,使得不同的“独立”Task网络之间有交互;缺点:这两种方式都会随着Task增长模型的规模线性变大;在Hard中何处“分支”是一个较难解决的问题;Encoder-based和Decoder-based区分:在底层特征提取时可以结合使用Hard和Soft的架构,但是Encoder在高层特征预测时候相互独立,Decoder的在

2020-12-20 13:25:51 100

原创 小赵带你读论文系列14-阿里妈妈之Deep Interest Network for Click-Through Rate Prediction

前言鬼才知道我为什么要学管理经济学和管理数学,学不进去了,算了看看论文读读代码放松一下。这是阿里DIN系列的第一篇文章,文章读起来不是很难,不过工业上实现会考虑时延就很麻烦,主要的工作我觉得像是引入了Attention机制(他自己解释说有点差别)。以往都是根据用户的Profile,Behavior Sequence做一个用户的Embedding,然后根据这个Embedding来和待推荐的商品作比较,最终输出用户点击该商品的概率。阿里觉得不好,第一,这种对待所有商品用户的Embedding都一成不变,

2020-11-29 19:19:11 1701 6

原创 Graph-Embedding - 详解node2vec

目录前言核心创新点代码前言原文链接:Stanford Node2Vec概括:综合使用DFS和BFS的思想进行neighbours的搜索(因为要保证neighbours在embedding后的空间内足够的“近”),保证共现的neighbours(DFS,类比句子中相邻的单词)和结构相似(BFS)的节点都能足够的“相似”。注:结构近似一开始我也没看明白,后面发现是u和s6同样担任中心点的作用,我们认为其结构近似。换句话说,也就是不但要找到u的直接相邻的邻居s1,s2,s3,还

2020-11-21 00:25:52 139

原创 小赵讲堂系列1-特征工程这件小事

我们做算法的,一定不能成为调包侠,我们每做一个操作,每写一段代码都要知道为什么要写这段代码,最终要使模型的预测效果可解释,故有此篇。刷了三遍百面机器学习的总结和日常见到的一些小问题,加入了自己的理解,不足之处请见谅。为什么我们要使用数据归一化及其适用范围在学习速率相同的情况下,范围大的特征更新速度会大于范围小的特征,这样会导致找到最优解迭代次数增加。适用范围:包括线性回归,逻辑回归,支持向量机、神经网络,但并不适用于决策树,为什么呢?因为决策树每次选择特征只考虑一个变量,不考虑变量之间的相关性。

2020-11-06 10:09:07 3372 11

原创 Python算法实战-牛客刷题-剑指offer通关
原力计划

目录二维数组中的查找替换空格从尾到头打印链表重建二叉树用两个栈实现队列旋转数组的最小数字斐波那契数列跳台阶变态跳台阶矩阵覆盖二进制中1的个数数值的整数次方调整数组顺序使奇数位于偶数前面链表中倒数第k个节点反转链表合并两个排序的链表树的子结构二叉树的镜像顺时针打印矩阵包含min函数的栈栈的压入弹出序列从上往下打印二叉树二叉搜索树的后序遍历序列二叉树中和为某一值的路径复杂链表的复制二叉搜索树与双向链表.

2020-05-30 12:11:48 663

原创 数据分析实战-Kaggle-手把手Xgboost信用欺诈检测实例-超详细完整数据分析项目
原力计划

这个实战并不是我自己纯手写的,其中很多想不明白的地方参考了诸多kaggle金牌得主的discussion和idea,其实数据分析本来就不是从0开始,嘿嘿。

2020-05-22 14:45:30 1565

原创 Python爬虫项目实战-Scrapy+Charles+MongoDB+Redis实现分布式京东全网信息爬取2020最新版

目录一、基础知识二、开发环境及项目结构三、结果展示四、实战源码4.1 数据模型-items.py4.2 存储操作(以MongoDB为存储数据库)-pipelines.py4.3 项目配置-settings.py4.4 中间件配置-middlewares.py4.5 分类信息抓取-jd_category.py4.6 抓取商品详细信息-jd_product.py4.7 分布式操作的实现-add_category_to_redis.py五、项目使用方法一、.

2020-05-14 15:27:00 1202 3

原创 Ubuntu 18.0虚拟机安装-VirtualBox和VMware哪家强

一、吐槽不要用VirtualBox,不要用VirtualBox,谁用谁傻子!!!!用VirtualBox安装了一下午,都是这个界面试了网上所有的办法,毫无卵用。听懂了吗,毫无乱用,别去试了。下面VM-Ware傻瓜式安装结果,只用一次就成功了!!!二、VMware安装步骤及相关修改下面是下载安装VMware步骤-Workstation Pro(这个网站好像需要先注册)...

2020-03-09 18:32:25 4951

原创 保研夏令营-南大、哈工、天大、中山、北理

应学校老师之邀,还是写一下自己的保研经历保研好比打怪,打怪你得有装备,赤膊上阵肯定是不行的。这些装备不需要氪金但是需要刷时间,无论是一张“充实”的简历,一份流利的自我中英文自我介绍还是联系导师的“套磁”邮件,都需要你用心的,慢慢的去做。我的打怪经历相比一些广撒网的同学来说并不是很丰富。保研之初我便明确了自己保研的方向和地域,东部沿海或发达城市的管理科学与工程(信息系统方向)或者大数据方向的...

2020-03-06 12:11:47 2467

原创 torch非标量的反向传播

y = f(x) 人话就是y为scalar的时候可以对张量x求导,但是当y计算出来也是个标量的时候会报错import numpy as np import torch # f(x) = a*x**2 + b*x + cx = torch.tensor([[0.0,0.0],[1.0,2.0]],requires_grad = True) # x需要被求导a = torch.tensor(1.0)b = torch.tensor(-2.0)c = torch.tensor(1.0)

2021-05-10 19:34:41 3

原创 from_numpy其实和numpy指向同一个地址

#torch.from_numpy函数从numpy数组得到Tensorarr = np.zeros(3)tensor = torch.from_numpy(arr)print("before add 1:")print(arr)print(tensor)print("\nafter add 1:")np.add(arr,1, out = arr) #给 arr增加1,tensor也随之改变print(arr)print(tensor)# 可以用clone() 方法拷贝张量,中断.

2021-05-10 19:17:04 3

原创 好的paper阅读网站

https://paperswithcode.com/sotahttps://www.zhuanzhi.ai/https://paperswithcode.com/https://www.mendeley.com/?interaction_required=truehttps://www.aminer.cn/topic?channel=5ee095aa9fced0a24b3c4046&page=1

2021-05-08 21:48:56 8

原创 注意力机制小结

详情:写的比较好Global Attention​​​General效果一般较好Local Attention​两种:第一种直接选择源序列中的第t个为中心p,然后取两侧window-size大小的词作为context;第二种,先根据目标序列决定位置p,然后再按高斯分布对window内单词进行加权。Hierarchy Attention:感觉没啥创新,就是层级概念的提出Multi-Dimensional Attention:不再产生一个scaler,而是..

2021-05-07 17:44:10 9

原创 TensorDataset、Dataset、DataLoader三兄弟的用法

TensorDataset和自定义的Dataset处理完以后送入DataLoader中,进行batch or shuffle操作TensorDataset:相当于Python中的Zip函数a = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9], [1, 2, 3], [4, 5, 6], [7, 8, 9], [1, 2, 3], [4, 5, 6], [7, 8, 9], [1, 2, 3], [4, 5, 6], [7, 8, 9]])b = to

2021-05-06 21:39:53 14

原创 从Mysql索引说到B+树

索引Mysql索引:看作目录,可以使得查询变得更加高效。运作:在Mysql中使用的是InnoDB 引擎,它里面用的是 B+ 树索引。讲解:比价好的Mysql索引讲解;系列教程;小灰;Mysql索引实现:比较好的实例数据结构首先说下平衡树,这个树的插入删除可以说头疼,但是查询很好理解,其主要特点如下:最多有两个子节点;左小右大;树的两边层级差不大于1但这样受限于2个子节点,所以引出了B树(又称B-树),就是子节点多一点,这样可以在查找的子节点内进行比较,而非直接进行磁盘I.

2021-05-06 15:25:56 5

原创 Deep Meta-Leanrning Survey(待更新)

前言元学习:让神经网络自己学会去学习Inner-Level:单个task ; Outer-Level:多个task目标:监督学习:强化学习:关系:Transfer-Learning:元学习是其中的一种,但是元学习目标是优化整体的任务分布上的Loss,而迁移学习中的Pretrain不需要。Multi-task:N-way,K-shot leanring:从总的数据集合中划分出L-Train,L-Valid,L-Test,N是种类数,k是每个种类的样本数,一般情况

2021-05-06 13:59:56 37

原创 DANN困扰解决-交替训练数据

zhen

2021-04-27 21:12:07 11

原创 工作中常用的数学-自查

极大似然:一文搞懂极大似然;大数定理;中心极限定理:中心极限定理;人话;人话2贝叶斯概率:猴子数学期望:就这一个高斯过程:人话;推导各种分布:解释

2021-04-27 18:51:24 13

原创 LSTM一种优雅的参数初始化方式

class LstmRelu(nn.Module): @staticmethod def weight_init(m): if isinstance(m,nn.Linear): nn.init.xavier_normal_(m.weight) nn.init.constant_(m.bias,0) elif isinstance(m,nn.BatchNorm1d): nn.init.co.

2021-04-27 10:12:13 48

原创 Deep Sarsa实现

最近给DQN洗脑了,那玩意其实就是训练机器人用的,但是!!!Q值并不单纯用来做优化,还可以用来做评估!!!(项目中老是想那个Target网络,殊不知那只是DQN的操作)import copyimport pylabimport randomimport numpy as npfrom environment import Envfrom keras.layers import Densefrom keras.optimizers import Adamfrom keras.models

2021-04-26 19:58:55 25

原创 项目化代码的一些辅助库

Parser:parser_known_args;基础ParserLogger:basic

2021-04-25 14:15:34 11

原创 Git冲突-心态爆炸

今天给git搞得心态爆炸真的,不行就换个新文件夹重新搞吧,不然太乱了。git clone ssh # 下载# 直接删除掉想替换的部分git rm XXX# 新增想加入的东西git add# 然后重新提交git commitgit push -u origin master...

2021-04-17 17:17:22 14

原创 Redis学习指南

q

2021-04-17 14:15:53 19

原创 Pytorch的一些高阶操作整理

看到别人代码里惯用的一些操作,觉得自己的代码真的太low了。1. topk2. where3.gather:某一维度,根据每行都选择该列维度4. einsum

2021-04-10 00:02:35 41

原创 DDPG

好懂的code:DDPG-pytorch占坑:原理后面补上。

2021-04-09 14:48:23 25

原创 DQN的Pytorch实现

import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gym# Hyper ParametersBATCH_SIZE = 32LR = 0.01 # learning rateEPSILON = 0.9 # greedy policyGAMMA = 0.9 # rewa.

2021-04-08 22:07:09 39

原创 Q-Learning和Sarsa Table

import numpy as npimport pandas as pdimport timenp.random.seed(2) # reproducibleN_STATES = 6 # the length of the 1 dimensional worldACTIONS = ['left', 'right'] # available actionsEPSILON = 0.9 # greedy policeALPHA = 0.1 # learning r.

2021-04-08 12:40:50 41

原创 强化学习代码理解1-Policy Gradient

# 策略梯度算法# 2020.5.22## cartpole 的state是一个4维向量,分别是位置,速度,杆子的角度,加速度;action是二维、离散,即向左/右推杆子# 每一步的reward都是1 游戏的threshold是475import argparseimport numpy as npimport gymfrom itertools import countimport torchimport torch.nn as nnimport torch.nn.functi.

2021-04-07 22:47:52 28

原创 弱监督学习综述-周志华

弱监督学习:Incomplete supervise(有标签的数据少);Inexact supervise(比如有图像级标签,而不存在对象级标签);Inaccuracy surpervise(存在虚假标签)Incomplete supervise:Active learning和Semi-supervise learning主动学习的形式: Informativeness(减少model的不确定性,例如不确定性采样)和representativeness(代表输入模式,例如委员会查询)简单解

2021-04-02 20:11:59 36

原创 UTD24-拿走不谢

The Accounting ReviewJournal of Accounting and EconomicsJournal of Accounting ResearchJournal of FinanceJournal of Financial EconomicsThe Review of Financial StudiesInformation Systems ResearchJournal on ComputingMIS QuarterlyJournal of Consumer R

2021-04-02 11:01:26 43

原创 RNN的迷迷糊糊

最近不在状态感觉,很多原本清晰的概念突然模糊,但是坐一会突然又懂了,算了,防止以后再迷糊,记录一下。RNN单步预测:没啥好说的,用最后一个Hidden进行预测。RNN多步预测:一次全部输出或者Seq_to_Seq架构,可以使用滑动窗口进行预测(其实这玩意也是单步预测)。几个图很清楚,LSTM多步。Transformer时序预测大多都是使用Encoder架构而不涉及Decoder架构,很多时候是在Encoder的Self-attention上嵌套一个RNN用于整合历史记忆,然后进行预测,这里和Teac

2021-03-30 15:48:54 19 1

原创 FM家族Pytorch实现

import torchimport numpy as npimport pandas as pdimport torch.nn.functional as Fimport torch.nn as nnfrom sklearn import preprocessingfrom util.load_data_util import get_batch_loaderEPOCHS = 500BATCH_SIZE = 1000DEVICE = torch.device("cuda" if to.

2021-03-29 17:41:34 46

原创 Tensorflow2 And Pytorch常用API整理

Tensorflow2PytorchModuleList和Sequence的区别:ModuleList and Sequencetorch.from_numpy:from_numpy()Numpy and Pandasnp.flatten:flatten

2021-03-24 23:09:57 20

原创 TypeError: unhashable type: ‘numpy.ndarray‘

别想了,多半是你传值的地方传了个列表,如下i = [0,1,2,3]item[i] = 1

2021-03-19 23:27:11 127 1

原创 Python杂技1

In [4]: import heapqIn [6]: topK = 2In [7]: item_score_dict = {'a':1,'b':2} # 从字典中In [8]: rank = heapq.nlargest(topK,item_score_dict,key = item_score_dict.get)>>> import heapq # 从列表中>>> nums=[1,8,2,23,7,-4,18,23,42,37,2]>>&g.

2021-03-19 18:50:38 31

原创 NCELoss的迷迷糊糊

猛然间回顾,发现自己对原来觉得理解的概念产生了疑惑,就包括这个负采样。tf.nn.nce_loss(weights=nce_weights, biases=nce_biases, labels=y, inputs=x_embed, num_sampled=num_sampled,

2021-03-19 15:43:18 19

原创 推荐系统的迷迷糊糊2

最近几个推荐系统混在一起给我看迷糊了,整理一下防止再迷糊,尤其是从实现的角度。协同过滤:分为UCF和ICF,其实本质上思想一样,都是根据已有交互记录对用户的相似程度或者物品的相似程度进行计算,得到用户对未购买过的物品的偏好得分,然后将这些得分进行排序,排序完选择前20个推荐给用户,迷糊的点在于,我怎么知道协同过滤的效果好不好呢?感觉只是一种召回的手段,无需判断他好不好(有待指正)。如果我们这时候再有一个后期的真实购买记录,就能计算准确性了???MF:基于矩阵分解的思想。输入一个User-Item的矩

2021-03-19 09:45:48 20

matlab常见源码

老师给的资源 自己买的资源 获得过国奖 东三省奖 校奖

2018-02-05

数据库大作业Java---采购系统(满分)

采购管理系统是一款集公司各单位所需设备统计、供应商信息管理、采购订单信息管理功能为一体的信息系统。其在采购管理中操作方便、功能齐全,被广泛使用。此次采购管理系统用 java 语言实现,用MySQL作为后台的数据库进行信息的存储,用SQL语句完成对人员表、设备信息表、供应商信息表、采购信息表的增、删、改、查四个操作。用JDBC驱动实现前台Java与后台SOL数据库的连接。

2019-04-23

Fraud Transaction.rar

Kaggle竞赛中的数据集,详见本人博客。本数据集从官网下载,该kaggle项目已经结束,公共资源,并不涉及侵权问题。

2020-05-22

数据库相关书籍

数据库常见书籍资源的上传,希望大家喜欢,对我很有用

2019-06-07

数学建模资料—算法,书籍pdf(获过国奖)

matlab算法,常见模型,智能算法!!楼主获得过两次国奖。

2019-04-23

python.rar

常见python的书籍,包含很多有用的,高清的pdf,还希望大家喜欢,谢谢

2019-06-07

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除