<div dir="ltr">Hi All,<div><br></div><div style>I am trying to launch a 3-node cluster (using 0.94.3), and keep getting an error during SGE install on the master, which blows the install of it and the remaining nodes out of the water.</div>
<div style><br></div><div style>My starcluster config file specifies disable_queue = true and then invokes the sge plugin with MASTER_IS_EXEC_HOST = False, so all it needs to do is install and bring up qmaster.</div><div style>
<br></div><div style>The qmaster does come up, however, the cluster start keeps timing out with the following:</div><div style><br></div><div>&gt;&gt;&gt; Installing Sun Grid Engine...</div><div>!!! ERROR - Error occured while running plugin &#39;sge&#39;:</div>
<div>!!! ERROR - remote command &#39;source /etc/profile &amp;&amp; cd /opt/sge6 &amp;&amp;</div><div>!!! ERROR - TERM=rxvt ./inst_sge -m -noremote -auto ./ec2_sge.conf&#39;</div><div>!!! ERROR - failed with status 1:</div>
<div>!!! ERROR - Reading configuration from file ./ec2_sge.conf</div><div>!!! ERROR - [H[2JInstall log can be found in: /opt/sge6/default/common/i</div><div>!!! ERROR - nstall_logs/qmaster_install_master_2014-01-22_21:55:08.log</div>
<div style><br></div><div style>In the install log, it&#39;s waiting for the SGE qmaster pid file to show up, times out after 5mins, and tells me to check my autoinstall config file. <br></div><div style><br></div><div style>
Here are the ps output, and the installation log. </div><div><br></div><div>root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs</div><div># ps -ef|grep master</div><div>avahi     1038     1  0 20:42 ?        00:00:00 avahi-daemon: running [master.local]</div>
<div>root      1442     1  0 20:43 ?        00:00:00 /usr/libexec/postfix/master</div><div>sgeadmin  1629     1  0 20:43 ?        00:00:00 /opt/sge6/bin/linux-x64/sge_qmaster</div><div>root     18277  4408  0 21:30 pts/0    00:00:00 /bin/grep --color=auto master</div>
<div><br></div><div>root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs</div><div># cat qmaster_install_master_2014-01-22_21:22:55.log</div><div>Starting qmaster installation!</div><div><br></div><div>Installing Grid Engine as admin user &gt;sgeadmin&lt;</div>
<div><br></div><div><br></div><div><br></div><div>Your $SGE_ROOT directory: /opt/sge6</div><div><br></div><div>Using SGE_QMASTER_PORT &gt;63231&lt;.</div><div><br></div><div>Using SGE_EXECD_PORT &gt;63232&lt;.</div><div><br>
</div><div>Using &gt;default&lt; as CELL_NAME.</div><div><br></div><div><br></div><div>Your $SGE_CLUSTER_NAME: starcluster</div><div><br></div><div>Using &gt;/opt/sge6/default/spool/qmaster&lt; as QMASTER_SPOOL_DIR.</div>
<div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div>Obviously this is not a complete Grid Engine distribution or this</div><div>is not your $SGE_ROOT directory.</div><div><br></div><div>Missing file or directory: start_gui_installer</div>
<div><br></div><div>Your file permissions will not be set. Exit.</div><div><br></div><div><br></div><div>Using &gt;true&lt; as IGNORE_FQDN_DEFAULT.</div><div>If it&#39;s &gt;true&lt;, the domain name will be ignored.</div>
<div><br></div><div><br></div><div>Making directories</div><div><br></div><div>Setting spooling method to dynamic</div><div>Dumping bootstrapping information</div><div>Initializing spooling database</div><div><br></div><div>
<br></div><div>Using &gt;20000-20100&lt; as gid range.</div><div>Using &gt;/opt/sge6/default/spool&lt; as EXECD_SPOOL_DIR.</div><div>Using &gt;<a href="mailto:none@none.edu">none@none.edu</a>&lt; as ADMIN_MAIL.</div><div>
Adding default parallel environments (PE)</div><div><br></div><div><br></div><div><br></div><div>   starting sge_qmaster</div><div>Reached 5min timeout, while waiting for qmaster PID file.</div><div>sge_qmaster daemon didn&#39;t start. Please check your</div>
<div>autoinstall configuration file! Installation failed!</div><div>&quot;</div><div><br></div><div style>It&#39;s this same error on every attempt, and I am using an unmodified ec2_sge.conf file.</div><div style><br></div>
<div>Appreciate any suggestions for how to get over this.</div><div><br></div><div style>Thanks much,</div><div style>Lyn</div></div>