游戏开发论坛

 找回密码
 立即注册
搜索
查看: 4159|回复: 16

大家帮看下我这个demo的桢数。

[复制链接]

8

主题

553

帖子

560

积分

高级会员

Rank: 4

积分
560
发表于 2004-2-11 09:24:00 | 显示全部楼层 |阅读模式
我发现在相同机器,相同OS下这个demo的FPS数差别巨大,为了弄清楚是否是驱动的原因,特请大家帮我试试。
程序运行需要glut库,在渲染窗口下按f可以在那个控制台窗口显示FPS数(多按几次,已最近几次稳定的数字为准)

sf_200421192419.rar

244.86 KB, 下载次数:

8

主题

553

帖子

560

积分

高级会员

Rank: 4

积分
560
 楼主| 发表于 2004-2-11 09:27:00 | 显示全部楼层

Re: 大家帮看下我这个demo的桢数。

没办法,最大250K
把这两个包里文件解压后放在同一目录下就ok了,谢谢各位了。

sf_200421192730.rar

218.75 KB, 下载次数:

6

主题

444

帖子

457

积分

中级会员

Rank: 3Rank: 3

积分
457
发表于 2004-2-13 14:49:00 | 显示全部楼层

Re:大家帮看下我这个demo的桢数。

win2ksp4
P4 2.53
Dual-Channel PC2100 256Mx2
Radeon9700

基本稳定在105左右。
似乎这个demo对CPU依赖相当严重……不是好现象

8

主题

553

帖子

560

积分

高级会员

Rank: 4

积分
560
 楼主| 发表于 2004-2-14 17:04:00 | 显示全部楼层

Re:大家帮看下我这个demo的桢数。

呵呵,非也。
瓶颈不在CPU,在AGP的带宽,因为我没用VBO,使用的是原始的Vertex Array,demo里男人是4600个面,女人是5000个面,小孩是800个面,一共64个人,你可以算算有多少顶点。
没办法,使用VBO + VP实现骨骼动画在速度上至少可以比现在这个快2-3倍,但不能保证所有人的机器都能运行。

6

主题

444

帖子

457

积分

中级会员

Rank: 3Rank: 3

积分
457
发表于 2004-2-14 17:40:00 | 显示全部楼层

Re: Re:大家帮看下我这个demo的桢数。

kypck: Re:大家帮看下我这个demo的桢数。

呵呵,非也。
瓶颈不在CPU,在AGP的带宽,因为我没用VBO,使用的是原始的Vertex Array,demo里男人是4600个...

问题在于如果我开个IE就会下降个5,6fps
如果我再打开winamp的话就只有85fps左右了。
对于有DMA特点的AGP Bus来说,我不认为我进行以上操作会影响到很大的AGP bandwidth效率。而且我的是AGP8x,应该也不会成为最重要瓶颈吧。


8

主题

553

帖子

560

积分

高级会员

Rank: 4

积分
560
 楼主| 发表于 2004-2-14 19:05:00 | 显示全部楼层

Re:大家帮看下我这个demo的桢数。

开应用程序多少会有影响,不过为什么你开winamp会影响那么大就不清楚了,在我的P4 2.4 + GF4 Ti4600上几乎没有影响(1-2帧)。
在一台P4 2.4C + R9700pro上有130多,但AMD 2200(老核心) + R9700 pro(可能主板也比较老)却只有可怜的56。
AMD 2200的浮点性能绝对不在P4 2.4C之下,我曾经在这两种CPU上绘制Mandelbrot set,AMD CPU快的非常令我惊讶,极端的浮点计算测试下,P4 2.4C最多和AMD 2000持平。

6

主题

444

帖子

457

积分

中级会员

Rank: 3Rank: 3

积分
457
发表于 2004-2-14 19:10:00 | 显示全部楼层

Re:大家帮看下我这个demo的桢数。

至于AMD和Intel的浮点性能差异也没你说的那么邪乎啦,AMD的K7的特点是同时可以进行浮点加法和乘法,并且延迟比较小,不过,Intel的P4频率高,并且有SSE2,你如果用双精度浮点运算做比较,那么可以看出来Intel P4要比相近PR值的AMD k7至少快10%左右。(当然你得用ICC编译优化一下)
不过至于为何你说的AMD+9700P只有56fps实在是令我捉摸不透。感觉你的这个程序很有点奇怪,为何不用DX试一下呢?

8

主题

553

帖子

560

积分

高级会员

Rank: 4

积分
560
 楼主| 发表于 2004-2-14 19:48:00 | 显示全部楼层

Re:大家帮看下我这个demo的桢数。

在P4CPU上运行的mandelbrot程序使用了icc,在AMD CPU上运行的程序首先只是使用VC的编译器,速度稍微比P4快,在600 X 600上的mandelbrot set计算分别是1378ms和1320ms,但同样使用icc,但编译是选择为p3优化,AMD CPU的计算时间就变成了980ms。
当然是double,什么绘制mandelbrot set计算会用float? 放大几次就没有了。
使用3DSmax渲染复杂场景时,AMD CPU的优势不是一般的明显,mandelbrot set也是个非常极端的例子,如果综合的看,P4和相同PR值的AMD CPU差不多。

8

主题

553

帖子

560

积分

高级会员

Rank: 4

积分
560
 楼主| 发表于 2004-2-14 19:51:00 | 显示全部楼层

Re:大家帮看下我这个demo的桢数。

以上AMD CPU为2000+,P4 CPU为2.4B
DX下的demo同样demo我也做了,要慢一丁点。

6

主题

444

帖子

457

积分

中级会员

Rank: 3Rank: 3

积分
457
发表于 2004-2-14 20:01:00 | 显示全部楼层

Re: Re:大家帮看下我这个demo的桢数。

kypck: Re:大家帮看下我这个demo的桢数。

在P4CPU上运行的mandelbrot程序使用了icc,在AMD CPU上运行的程序首先只是使用VC的编译器,速度稍微比P4快,...

令我不太理解的是既然是大部分是double,那么用ICC的P3优化(使用SSE,K7XP也支持这个吧)应该不会造成多少向量化的结果才对,也就是说不应该出现大幅度的性能提升才对啊……不理解中,我曾经编译过一个类似super pi的程序,使用的是Chudnovsky级数算法,使用的是ICC8进行编译,在计算1M位的时候,如果不使用任何优化,则我的电脑是28秒左右,同时B2500+是25妙左右,当完全优化后,我的电脑可以到20s左右,而B2500+依然在24s左右。
至于专业3D应用,基本上像spec这类测试完全是Intel的天下……
哎……扯远了,接着说这个程序吧。如果你使用DX,可以常识使用SoftVertexProcessing的VS进行skin,同时使用multistream以减轻AGP总线的压力,看看效果如何,DX中的VVM(虚拟顶点处理器)应该说是相当不错的。
我依旧认为是CPU制约了程序的速度,运行该程序时,cpu是时刻处于100%状态的。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

作品发布|文章投稿|广告合作|关于本站|游戏开发论坛 ( 闽ICP备17032699号-3 )

GMT+8, 2025-2-25 06:45

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表