建设电商网站的总结报告经营阅读网站需要怎么做

张小明 2026/3/13 4:52:51
建设电商网站的总结报告,经营阅读网站需要怎么做,wordpress破解加密文章,成都三网合一网站建设理论基础#xff1a;注意#xff1a;1. 策略的输出要加对数#xff0c;因此net输出必须softmax#xff0c;将输出限制为正数。2. 这里选择action不是greedy地选择最优action#xff0c;而是按照概率分布选择action-exploration。3. 策略更新使用的是梯度上升#xff…理论基础注意1. 策略的输出要加对数因此net输出必须softmax将输出限制为正数。2. 这里选择action不是greedy地选择最优action而是按照概率分布选择action-exploration。3. 策略更新使用的是梯度上升因此loss取负。4. 这里使用step一步步收集episode而不是像之前一样直接使用generate_episode函数生成完成的path是因为在generate_episode中是使用greedy的方法选择action的见2。5. num_episodes大一些。代码可运行import numpy as np import torch from torch import nn from env import GridWorldEnv from utils import drow_policy policy gradient by Monte Carlo class Reinforce(object): def __init__(self, env: GridWorldEnv, gamma0.9, lr1e-2): :param env: :param gamma: discount rate :param lr: learning rate of optimizer self.env env self.action_space_size self.env.num_actions self.state_space_size self.env.num_states self.gamma gamma self.net nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.policy np.zeros((self.state_space_size, self.action_space_size)) self.q_value np.zeros((self.state_space_size, self.action_space_size)) self.optimizer torch.optim.Adam(self.net.parameters(), lrlr) def decode_state(self, state): :param state: int :return: 归一化后的元组 i state // self.env.size j state % self.env.size return torch.tensor((i / (self.env.size - 1), j / (self.env.size - 1)), dtypetorch.float32) def solve(self, num_episodes): for _ in range(num_episodes): state_int self.env.reset() state self.decode_state(state_int) done False episode [] # [[state_tensor,reward,done]...[...]] while not done: logits self.net(state) action_probs torch.softmax(logits, dim0) action_dist torch.distributions.Categorical(action_probs) # 按分布采样 action action_dist.sample().item() next_state, reward, done self.env.step(state_int, action) episode.append((state, action, reward)) state_int next_state state self.decode_state(next_state) # value update returns [] G 0 for _, _, reward in reversed(episode): G reward self.gamma * G returns.insert(0, G) # policy update self.optimizer.zero_grad() loss 0 for (state, action, _), G in zip(episode, returns): logits self.net(state) action_probs torch.softmax(logits, dim0) action_dist torch.distributions.Categorical(action_probs) log_prob action_dist.log_prob(torch.tensor(action)) # In Π(a_t|s_t, θ) loss - log_prob * G # 负号是因为最小化 loss-最大化 J(θ)梯度上升更新参数 loss.backward() self.optimizer.step() def get_policy(self): for s in range(self.state_space_size): a np.argmax(self.q_value[s]) self.policy[s, a] 1 return self.policy def get_qvalues(self): for s in range(self.state_space_size): s_t self.decode_state(s) logits self.net(s_t) action_probs torch.softmax(logits, dim0) self.q_value[s,:] action_probs.detach().numpy() # q_value是numpy类型action_probs是tensor必须转换 return self.q_value if __name__ __main__: env GridWorldEnv( size5, forbidden[(1, 2), (3, 3)], terminal[(4, 4)], r_boundary-1, r_other-0.04, r_terminal1, r_forbidden-1, r_stay-0.1 ) vi Reinforce(envenv) vi.solve(num_episodes200) print(\n state value: ) print(vi.get_qvalues()) drow_policy(vi.get_policy(), env)运行结果
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站怎么做区域性优化做服装招聘的网站有哪些内容

第一章:Open-AutoGLM报销单据提交概述Open-AutoGLM 是一款基于大语言模型驱动的智能办公自动化平台,专注于提升企业财务流程效率。其核心功能之一是报销单据的智能化提交与审核,通过自然语言理解与结构化数据提取技术,用户可快速完…

张小明 2026/3/5 3:55:36 网站建设

摄影作品网站知乎广东阳江发布最新消息

EmotiVoice语音合成时间戳功能:精确对齐字幕与音频 在视频内容爆炸式增长的今天,自动字幕生成、虚拟角色口型同步和情感化语音交互已不再是边缘需求,而是智能媒体系统的核心能力。然而,传统文本转语音(TTS)…

张小明 2026/3/5 3:55:35 网站建设

2018年网站建设工作总结建设网站要不要投资钱

EmotiVoice语音合成在博物馆导览系统中的智能化升级 在一座安静的博物馆展厅里,游客驻足于一件千年古剑前。耳边响起的不再是千篇一律的机械播报,而是一位声音低沉、语气庄重的老学者娓娓道来:“这柄青铜剑出土于战国墓葬,寒光未褪…

张小明 2026/3/5 3:55:37 网站建设

电子购物网站设计新织梦官网

开源绘图新选择:Excalidraw结合AI实现自然语言转流程图 在远程协作成为常态的今天,团队沟通中最常见的场景之一,可能就是“我有个想法,但说不清楚”——尤其是面对复杂系统架构或业务流程时。传统的绘图工具虽然功能齐全&#xff…

张小明 2026/3/5 3:55:36 网站建设

网站建设书模板淘宝网站做推广收费吗

编程竞赛学习社区推荐:洛谷Codeforces群如何拓展思维边界?核心要点竞赛思维能力的培养并非依赖天赋,而是通过“基础巩固—专项训练—实战模拟—赛后复盘—持续续航”五个阶段的系统性刻意练习来实现。积极参与洛谷、Codeforces群等学习社区的…

张小明 2026/3/5 3:55:40 网站建设